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计算 机 系统 绪 构 评 程 内 容 比 较 抽 和 象 .单调 ,不 少 内 容 要 通过 实验 才能 得 到 更 好 的 理 


解 。 和 而 且 , 通 过 实验 人 研究 对 系统 结构 进行 量化 分 析 , 是 国际 上 流行 的 一 种 方法 。 


基于 模拟 器 进行 实验 是 一 种 很 好 的 方式 ,有 时 其 效果 甚至 比 实物 实验 更 好 。 因 此 ,本 


教材 基于 编者 开发 的 具有 日 主 版 权 的 模拟 大, 设计 和 编号 了 以 下 8 个 实验 。 


(1) 指令 系统 和 体系 结构 ; 

(2) 流水 线 及 流水 线 中 的 冲突 ; 

(3) 指令 调度 和 延迟 分 文 ; 

(4) Cache 性 能 分 析 ; 

(5) Tomasulo 算法 ; 

(6) 再 定 序 缓冲 (ROB) 工 作 原 理 ，; 

(7) 多 Cache 一 致 性 一 一 监听 协议 ; 

(8) 多 Cache 一 致 性 一 一 目录 协议 。 
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实验 1 MIPS 指令 系统 和 MIPS 
体系 结构 


1.1 实验 目的 


(1) 了 解 和 熟悉 指令 级 模拟 硕 。 

(2) 熟练 掌握 MIPSsim 模拟 需 的 操作 和 使 用 方法 。 

(3) 熟悉 MIPS 指令 系统 及 其 特点 ,加 这 对 MIPS 指令 操作 语义 的 理解 。 
(4) 熟悉 MIPS 体系 结构 。 


1.2 实验 平台 


实验 平台 采用 指令 级 和 流水 线 操 作 级 模拟 硕 MIPSsim 。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公 众 号 :; Arch365 

请 扫描 以 下 二 维 码 , 单 击 关 注 后 , 按 提 示 操 作 。 


bf | 口 


1.3 实验 内 容 和 步骤 


首先 要 阅读 MIPSsim 模拟 器 的 使 用 方法 ( 见 1. 4 节 ), 然 后 了 解 MIPSsim 的 指令 系 
统 和 汇编 语言 ( 见 附录 A 、 附 录 B 和 附录 C)。 

(1) 启动 MIPSsim (双击 MIPSsim. exe) 。 

(2) 选择 “配置 ">“ 流 水 方式 ”, 使 模拟 冀 工 作 在 非 流 水 方式 下 。 
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(3) 参照 1.4 市 的 使 用 说 明 ,熟悉 MIPSsim 模拟 器 的 操作 和 使 用 方法 。 

可 以 先 载 入 一 个 样 例 程 序 ( 在 本 模拟 器 所 在 的 文件 夹 下 的 “ 样 例 程 序 ” 文 件 夹 中 ), 然 
后 分 别 以 单 步 执行 一 条 指令 .执行 多 条 指令 .连续 执行 .设置 断 点 等 的 方式 运行 程序 ,观察 
程序 的 执行 情况 ,观察 CPU 中 寄存 硕 和 存储 硕 的 内 容 的 变化 。 

(4) 选择 "文件 一"“ 载 和 人 程序? 选项, 加载 样 例 程序 alltest. asm, 然 后 查看 “代码 ” 窗 
口 ,查看 程序 所 在 的 位 置 ( 起 始 地 址 为 0x00000100) 。 

(5) 查看 “寄存 器 ”窗口 PC 寄存 器 的 值 : [PC] 王 0x 

(6) 执行 load 和 store 指令 ,步骤 如 下 。 

| 单 步 执行 一 条 指令 (FE7) 。 


四 下 一 条 指令 地 址 为 0x ,是 一 条 (有 ,无 ) 符 号 载 入 ( 字 
节 , 半 字 , 字 ) 指 令 。 


@) 单 步 执行 1 条 指令 (F7) 。 

由 查看 R1 的 值 ,LR1 | 一 0x , 

G@) 下 一 条 指令 地 址 为 0x ,是 一 条 (有 ,无 ) 符 号 载 人 ( 字 ， 
半 字 , 字 ) 指 令 。 

(0) 单 步 执行 1 条 指令 。 


QW 查看 R1 的 值 ,LR1 j= 二 0x 和 
@ 下 一 条 指令 地 址 为 0x ,是 一 条 ” (有 ,无 ) 符 号 载 入 


G@) 单 步 执行 1 条 指令 。 
(0 查看 R1 的 值 ,LR1] 王 0x 
由 单 步 执行 1 条 指令 。 


(3 单 步 执行 1 条 指令 。 
@ 查看 内 存 BUFFER 处 字 的 值 , 值 为 0x , 


(7) 执行 算术 运算 类 指令 ,步骤 如 下 。 

QO@ 双击 “寄存 器 ”窗口 里 的 R1, 将 其 值 修改 为 2。 

名 双击 “寄存 需 ? 窗 口 里 的 R2, 将 其 值 修 改 为 3。 

GB) 单 步 执行 1 条 指令 。 

(9D 下 一 条 指令 地 址 为 0x ,是 一 条 加 法 指令 。 

G@) 单 步 执行 1 条 指令 。 

G) 查看 R3 的 值 ,LR3 |] 二 0x 

(D 下 一 条 指令 地 址 为 0x ,是 一 条 乘法 指令 。 

@) 单 步 执行 1 条 指令 。 

@ 查看 LO、HI 的 值 ,LLO] 王 0x ,[HIJ 王 0x 
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(8) 执行 逻辑 运算 类 指令 ,步骤 如 下 。 

J 双击 "寄存 带 ? 窗 口 里 的 人 1, 将 其 值 修改 为 0xFFFF0000。 

旬 双击 “寄存 天 ”窗口 里 的 人 2 ,将 其 值 修改 为 0xFF00FF00。 

G@) 单 步 执行 1 条 指令 。 

由 下 一 条 指令 地 址 为 0x ,是 一 条 逻辑 与 运算 指令 ,第 二 个 操作 数 寻 址 方式 
(寄存 锅 直 接 寻 址 ,立即 数 寻 址 ) 。 

@) 单 步 执行 1 条 指令 。 

(© 查看 R3 的 值 ,LR3] 二 0x 

G@ 下 一 条 指令 地 址 为 : 0x ,是 一 条 逻辑 或 指令 ,第 二 个 操作 数 寻 址 方式 
(寄存 大 直接 寻 址 ,立即 数 寻 址 ) 。 

@) 单 步 执行 1 条 指令 。 

@ 查看 R3 的 值 ,LR3] 一 0x 

(9) 执行 控制 转移 类 指令 ,步骤 如 下 。 

Q 双击 “寄存 更 ”窗口 里 的 R1, 将 其 值 修改 为 2。 

@ 双击 “寄存 器 ”窗口 里 的 R2, 将 其 值 修改 为 2。 

(3 单 步 执行 1 条 指令 。 

由 下 一 条 指令 地 址 为 0x ,是 一 条 BEQ 指令 ,其 测试 条 件 是 , 目标 


地 址 为 0x 


Q 单 步 执行 1 条 指令 。 
(© 查看 PC 的 值 ,LPC] 二 0x ,表明 分 文 (成 功 , 失 败 )。 
QD 下 一 条 指令 地 址 是 一 条 BGEZ 指令 ,其 测试 条 件 是 , 目标 地 址 


为 0x 


(8) 单 步 执 行 1 条 指令 。 
@G 查看 PC 的 值 ,LPC |] 二 0x ,表明 分 文 (成 功 ,失败 ) 。 
0 下 一 条 指令 地 址 是 一 条 BGEZAL 指令 ,其 测试 条 件 是 , 目标 地 址 


为 0x | 

QD 单 步 执行 1 条 指令 。 

3 查看 PC 的 值 ,LPC] 二 0x ;表明 分 文 (成 功 , 失 败 ); 查看 R31 的 
值 ,LR31] 王 0x 


(3 单 步 执 行 1 条 指令 。 

只 查看 R1 的 值 ,LR1 | 二 0x 

(9 下 一 条 指令 地 址 为 0x ,是 一 条 JALR 指令 ,保存 目标 地 址 的 寄存 需 
,保存 返回 地 址 的 目标 寄存 硕 为 人 

(9 单 步 执行 1 条 指令 。 

DT 查看 PC 和 R3 的 值 ,LPC |] 二 0x ,[R3] 王 0x 。 
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1.4 MIPSsim 使 用 手册 


1.4.1 启动 模拟 器 


双击 MIPSsim. exe, 即 可 启动 该 模拟 问 。MIPSsim 是 在 Windows 操作 系统 上 运行 
的 程序 , 它 需 要 用 . NET 运行 环境 。 
模拟 更 局 动 时 ,日 动 将 目 己 初 巡 化 为 默认 状态 。 所 设置 的 默认 值 为 : 
所 有 通用 寄存 器 和 浮 点 寄存 器 为 全 0; 
内 存 清 零 ; 
流水 寄存 器 为 全 0; 
清空 时 钟 图 、 断 点 、 统 计数 据 ; 
内 存 大 小 为 4096B; 
载 人 起 始 地 址 为 0; 
浮 点 加 法 .乘法 .除法 部 件 的 个 数 均 为 1; 
浮 点 加 法 .乘法 ,除法 运算 延迟 分 别 为 6.7、10 个 时 钟 周 期 ; 
及 用 流水 方式 ; 
不 采用 定 问 机 制 ; 
不 及 用 延 开 模 ; 
米 用 符号 地 址 ; 
及 用 绝对 周期 计数 ，。 
当 模 拟 表 工作 在 非 流 水 方式 下 (配置 来 单 中 的 "流水 方式 ?前 没有 号) 时 ,下 面 叙 述 
中 有 关 流 水 段 的 内 容 部 没有 意义 ,应 该 忽略 。 


二 韦 雪 雪 当 人 当 雪 雪 汝 人 沼 当 二 汕 


1.4.2 MIPSsim 的 窗口 


在 流水 方式 下 ,模拟 器 主 界面 中 共有 7 个 子 窗口 ,它们 是 代码 窗口 .寄存 器 窗口 .流水 
线 窗口 .时 钟 周期 图 窗口 .内 存 窗口 .统计 窗口 和 断 点 窗口 。 每 一 个 窗口 都 可 以 被 收 起 ( 变 
成 小 图 标 ) .展开 、 拖 动 位 置 和 放大 /缩小 。 当 要 看 窗口 的 全 部 内 容 时 ,可 以 将 其 放大 到 


最 大 。 
在 非 流水 方式 下 ,只 有 代码 窗口 .寄存 善 窗口 .内存 窗口 和 上 断 点 窗口 。 
1. 代码 窗口 


代码 窗口 给 出 内 和 存 中 代码 的 列表 ,每 条 指令 占 一 行 , 按 地 址 顺序 排列 。 每 行 有 5 列 
( 当 全 部 显示 时 ): 地 址 、 断 点 标记 、 指 令 的 机 器 码 、 流 水 段 标记 和 符号 指令 ,如 图 1.1 
所 示 。 

图 1. 1 中 不 同 抹 色 的 行 代表 相应 的 指令 所 处 的 执行 段 。 黄 色 代 表 IF 段 ,绿色 代表 
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C:\out.bin 
断 点 标记 
Dx00000000 


机 器 码 
Dx8Cc01003 


遍 水 段 


他 号 指令 
LW $1,650t#$0 


Dx00000008 
DxO0000000C B. ME 


Dx0OO000000 MEM 
DxaCO2003C 


SLL $0,.$0.0 
dH #2rb0l#0) 


UXUUUUUUJLOU B.I1F 


Dx00000014 


DxO0000001C 
Dx00000020 
Dx 00000024 
Ox00000028 
Dx0000002C 
Dx00000030 
Dx O0000034 
Dx00000038 
Dx0000003C 
Dx00000040 
Dx 000000444 
Dx00000048 
Dx N000004C 


Dx00000054 
Dx O00000058 
Dx O00000sC 


BB， 


IL 


UKXDUUUOUDDU Sa 
DxDUDuuuubunub 


OxZ2021FFFF ID 
Ox10200004 IF 


0x00000000 
Dx7?041100. 
0x1 O000FFFE 
Ox00000000 
DxU3E0000S 
Dx00000000 
0x00000005 
D0x00000000 
D0x00000000 
0x00000000 
Ox00000000 


0x0o0n00000 
Ox00000000 
0x00000000 


TEQ 5s0,.50 
LL 5s0,540 ,0 


ADDI 4$41 .541,-1 


3LL $0,$0.0 
dLL #0 $0.,.0 
ALL #0:#$0 ,0 


1.1 代码 窗口 


ID 段 ,红色 代表 EX 段 ,青色 代表 MEM 段 , 标 色 代表 WB 段 。 
该 窗口 中 各 列 的 含义 如 下 。 
* 地 址 : 以 十 六 进 制 的 形式 给 出 。 内 存 是 按 字 节 寻 址 的 ,每 条 指令 占 4 字 节 。 当 条 
用 符号 地 址 时 ,会 在 相应 的 位 置 给 出 汇编 程序 中 出 现 的 标号 。 
4 断 点 标记 : 如 果 在 该 指令 处 设 有 断 点 , 则 显示 相应 的 标记 。 断 点 标记 的 形式 为 
B. X(X 为 段 名 ) ,表示 该 断 点 是 设置 在 该 指令 的 X 段 。 例 如 , 奋 某 行 的 断 点 标记 
为 B. EX, 则 表示 在 该 指令 的 EX 段 设 置 了 断 点 。 
当 模 拟 硕 工作 在 非 流水 方式 下 时 , 断 点 的 标记 为 B。 
* 机 器 码 : 该 行 所 对 应 的 指令 的 十 六 进 制 机 需 码 。 奉 该 行 无 指令 , 则 仅仅 显示 4 字 
4 流水 段 标 记 : 表示 当 该 指令 正在 执行 时 , 它 在 当前 周期 该 指令 所 处 的 流水 段 。 当 
模拟 器 工作 在 非 流 水 方式 下 时 , 它 没有 意义 。 
* 符号 指令 ; 机 右 代 码 所 对 应 的 符号 指令 。 
在 该 窗口 中 选中 某 行 ( 单 击 鼠 标 左 键 ) ,然后 再 单 击 鼠标 右键 ,就 会 弹出 菜单 “设置 断 
点 ”和 ”清除 断 点 ” ,它们 分 别 用 于 在 所 选 指令 处 设置 断 点 和 清除 断 点 。 
。 设置 断 点 : 
选择 ( 单 击 ) 要 设 断 点 的 指令 后 单 击 鼠 标 右 键 习 “设置 断 点 ”, 弹 出 “设置 断 点 ”对 话 框 ， 
在 “ 段 ” 的 下 拉 框 中 选择 断 点 所 在 的 流水 段 (在 非 流 水 方式 下 ,不 存在 该 下 拉 框 ), 单 击 “ 确 
定 ” 按 钮 即 可 。 
。 清除 断 点 : 
选择 ( 单 击 ) 指 令 后 单 击 鼠 标 右 键 一 “清除 断 点 ”, 则 设置 在 该 指令 处 的 断 点 被 删除 。 


2. 寄存 器 窗口 
寄存 颖 窗口 显示 MIPSsim 模拟 器 中 寄存 器 的 内 容 。 共 有 4 组 寄存 器 : 通用 寄存 器 、 


| 


米 
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浮 点 寄存 器 、 特 殊 寄存 器 和 流水 寄存 器 。 分 为 4 栏 来 显示 ,每 一 栏 下 分 别 有 各 自 的 数据 格 
式 选 项 ,如 图 1, 站 所 示 。 


通用 寄存 器 入 点 寄存 器 
@ 十 进 制 ” 〇 十 六 进 制 他 ) 单 精度 “QO 〇 双 精 度 


= 0. 000000Et+O000 
= 0. 0000EtOO0 
= 0.000000EtOO0 
= 0. 000000E+O00 
= 0.000000E+DOb 
= 0. D00000E+O00 
= 0. O00000E+000 
= 0.000000E+000 
= 0. N0000E+000 


= Dx0000000000000000 
= Dx00N00N00N0000000 
FCLSR = Ox00000000 


EX/NEN. IR = 0 


图 1.2 寄存 髓 黎 口 


(1) 通用 寄存 带 
MIPS64 有 32 个 64 位 通用 寄存 般 : RO,R1,…,R31。 它 们 人 徐 称 为 GPRs (General- 
Purpose Registers) ,有 时 也 称 为 整数 寄存 入。R0 的 值 永 十 是 0。 
通过 数据 格式 选项 ,可 以 选择 显示 的 格式 是 十 进 制 还 是 十 六 进 制 。 
(2) 浮 点 寄存 带 
共有 32 个 64 位 浮 点 数 寄存 器 : F0,F1,…,F31。 它 们 简称 为 FPRs(Floating-Point 
Registers) 。 它 们 既 可 以 用 来 存放 32 个 单 精 度 浮 点 数 (32 位 ), 也 可 以 用 来 存放 32 个 双 
精度 浮 点 数 (64 位 )。 存 储 单 精 度 浮 点 数 (32 位 ) 时 ,只 用 到 FPR 的 一 半 , 其 另 一 半 没 用 。 
(3) 特殊 寄存 天 
特殊 寄存 器 有 以 下 4 个 。 
* PC: 程序 计数 疑 (32 位 )。 
* LO: 乘法 寄存 器 的 低位 。 
4 HI: 乘法 寄存 硕 的 高 位 。 
* FCSR; 浮 点 状态 寄存 兹 。 
(4) 流水 寄存 需 
IF/ID. IR: 流水 段 正 与 ID 之 间 的 指令 寄存 髓 。 
IF/ID. NPC: 流水 段 正 与 ID 之 间 的 下 一 指令 程序 计数 器 。 
ID/EX. A: 流水 段 ID 与 EX 之 间 的 第 一 操作 数 寄存 器 。 
ID/EX. B; 流水 段 ID 与 EX 之 间 的 第 二 操作 数 寄存 器 。 
ID/EX. Imm: 流水 段 ID 与 EX 之 间 的 立即 数 寄 存 需 。 
ID/EX. IR: 存放 从 IF/ID. IR 传 过 来 的 指令 。 
EX/MEM. ALUo: 流水 段 EX 与 MEM 之 间 的 ALU 计算 结果 寄存 器 。 
EX/MEM. IR: 存放 从 ID/EX. IR 传 过 来 的 指令 。 


二 
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* MEM/WB. LMD: 流水 段 MEM 与 WB 之 间 的 数据 寄存 需 , 用 于 存放 从 存储 需 读 
出 的 数据 。 
* MEM/WB. ALUo: 存放 从 EX/MEM. ALUo 传 过 来 的 计算 结果 。 
* MEMVWB.IR: 存放 从 EX/MEM. IR 传 过 来 的 指令 。 
除了 流水 寄存 顺 外 ,其 他 寄存 关 都 可 以 修改 。 只 要 双击 某 寄 存 硕 所 在 的 行 , 系 统 就 会 
弹出 一 个 小 对 话 框 。 该 对 话 框 显示 了 该 守 存 问 原 来 的 值 , 在 新 值 框 中 填 入 新 的 值 , 然 后 单 
击 “ 保 存 ?" 按 钮 ,系统 就 会 将 新 值 写 人 该 寄存 需 。 


3. 流水 线 窗口 


流水 线 窗口 显示 流水 线 在 当前 配置 下 的 组 成 以 及 该 流水 线 的 各 段 在 当前 周期 正在 处 
理 的 指令 ,如 图 1. 3 所 示 。 
韭 流 水 方式 下 ,没有 该 窗口 。 


BEQ 本 1 入 
Du00000020 


上 DC 要 1 本 1 
le 


图 1.3 流水 线 窗 口 


在 该 窗口 中 ,每 一 个 矩形 方块 代表 一 个 流水 有 段 ,它们 用 不 同 的 颜色 填充 。 在 该 窗口 的 
左 侧 是 IF 到 WB 段 ,其 右边 为 浮 点 部 件 。 浮 点 部 件 分 有 浮 点 加 法 部 件 (fadd)、 浮 点 乘法 
部 件 (fmul) 和 浮 点 除法 部 件 (fdiv) 三 种 。 在 菜单 “配置 ">“ 常 规 配置 "中 修改 浮 点 部 件 个 
数 ,可 看 到 该 窗口 中 对 应 类 型 的 浮 点 部 件 个 数 会 发 生 相 应 的 变化 。 

在 运行 过 程 中 ,各 段 的 矩形 方块 中 会 显示 该 段 正 在 处 理 的 指令 及 其 地 址 (十 六 进 制 ) 。 
当 双击 某 矩形 方块 时 ,会 弹出 窗口 显示 该 段 出 口 处 的 流水 寄存 器 的 内 容 (十 六 进 制 ) 


4. 时 钟 周 期 图 窗口 


该 窗口 用 于 显示 程序 执行 的 时 间 关 系 , 男 出 各 条 指令 执行 时 所 用 的 时 钟 周 期 。 非 流 
水 方式 下 ,没有 该 窗口 。 
以 窗口 左上 为 原点 , 横 轴 正方 问 指 癌 右 方 , 表 示 模 拟 豆 先后 经 过 的 各 个 周期 ( 列 ), 纵 
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轴 正 方向 指向 下 方 ,表示 模 拟 副 中 先后 执行 的 各 条 指令 ( 行 ), 如 图 1.4 所 示 。 


是 时钟 周 期 图 


Instruclions/Cycle 


LW $1.60(40) 
BGEZAL 下 .4 
SLL 物 .$0.0 
ADD 2 本 1 .30 
aD0I$1. 折 .1 
BEQ $1.$0,4 


图 1.4 时 钟 周期 图 窗口 


横 坐 标 有 相对 周期 计数 和 绝对 周期 计数 两 种 不 同 的 表示 形式 。 在 默认 的 绝对 周期 计 
数 下 , 按 0、1、2…… 依 次 递增 的 顺序 计数 。 而 在 相对 周期 计数 下 ,当前 周期 记 为 第 0 个 周 
期 ,而 其 余 周期 (在 左边 ) 则 按 其 相对 于 当前 周期 的 位 置 , 分 别 记 为 一 1、 一 2、 一 3…… 等 。 

在 由 指令 轴 和 周期 轴 组 成 的 二 维 空间 下 ,坐标 (n, 让 对 应 的 和 矩形 区 域 表 示 指 令 i 在 第 
n 十 1 周期 时 所 经 过 的 流水 段 (假设 采用 绝对 周期 计数 ) 。 

双击 某 行 时 ,会 弹出 一 个 小 窗口 ,显示 该 指令 在 各 流水 段 所 进行 的 处 理 。 

该 窗口 中 还 显示 定向 的 情况 。 这 是 用 箭头 来 表示 的 。 若 在 第 m 周期 和 第 mm 十 1 周期 
间 产 生 从 指令 到 指令 i 的 定向 , 则 在 坐标 (m5, 二 ) 和 (Gm 十 1,is) 表 示 的 矩形 区 域 之 间 会 
有 一 个 箭头 。 


s。 内 存 窗口 


该 窗口 显示 模拟 天 内 存 中 的 内 容 , 左 侧 一 栏 为 十 六 进 制 地 址 , 右 侧 为 数据 ,如 疼 1.5 
所 示 。 可 以 直接 通过 双击 来 修改 其 内 容 , 这 时 会 弹出 一 个 “内 存 修改 ”对 话 框 ,如 图 1.6 所 
不 。 对 话 框 的 上 部 区 域 为 数据 类 型 与 格式 选择 区 ,通过 义 选 其 中 的 一 项 , 训 可 以 指定 所 米 


Dx00000000 Fo Ss8 20 da A0 O00 00 0é 
DxO00000008 DL O00 O00 00 A3 ES O00 11 
DxO0000010 Ez ?0 20 0 31 DO 20 O00 
Dx00000018 D1 O00 00 0 01 O00 O00 00 
DxO0000020 ALl ED O00 10 A3 78 Da 10 
Dx00000028 A0 24 20 01 O02 CC 00 0a4 
Dx00000030 DL O00 00 O00 Bz aC O00 11 
0x0n00038 10 AF FF FB 01 00 on 00 
DxO00000040 31 C7? ED OBS 01 oo 00 00 
DxO0000048 DO Do O00 DO O00 O00 00 Us 
DxO00000050 O00 Du O00 O00 O00 O00 O00 v8 
Dx00000058 nn O00 O00 00 O00 O00 00 00 
DxO0000060 DO on oO0 DO oO0 oo O00 oO0 
DxD0000068 DD Do 0 0 0 00 O00 0 
DxO00000070 DO Do oo 00 oo oo 00 00 
Dxnononnby oo oo oo oo 00 00 00 00 
Dx00000080 DO oo oo 00 O00 O00 00 00 
xO00000S8 DO ou UU O00 oO0 oO0 O00 bu 
Dx00000050 Do oo oo O00 O00 O00 00 00 

DO oo oo 00 bo oo 00 O00 


rir Mir RR Ri Rr MR CR mi 


1.5 内 存 窗口 
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数据 类 型 与 格式 

人) 十 进 制 宇 节 人 @ 十 六 进 制 字 节 

上 加 十 进 籼 半 字 仑 个 宇 节 ) 〇 十 六 进 制 半 字 它 个 宇 节 ) 
加 十 进 制 字 忆 个 字 节 ) ”加 十 六 进 制 字 4 个 字 节 ) 
〇 十 进 制 斋 字 6 个 宇 节 ) 〇 十 六 进 制 戏 字 包 个 宇 节 ) 
〇 单 精度 浮 点 (4 个 字 节 ) 〇 双 精 度 浮 点 人 @ 个 字 节 ) 


地 址 | 本 WT 

人 

[| | 
[前 地 址 ][ 后 8 址 ][ 2 示 | 


图 1.6 “内 存 修改 "对话 框 


在 该 "内存 修改 "对 话 框 中 ,地 址 框 最 开始 显示 的 是 锌 双击 单元 的 地 址 ,用 户 可 以 直接 
修改 该 地 址 。 在 新 值 框 中 输入 新 值 ,人 然后 单 击 “修改 ”按钮 ,模拟 右 束 会 把 新 值 写 入 内 存 中 
相应 的 单元 。 新 值 的 格式 必须 与 所 选 的 数据 类 型 和 格式 一 致 。 

“前 地 址 ”与 “后 地 址 ”按钮 分 列 将 当前 地 址 减少 和 增加 一 个 数据 长 度 ( 字 市 数 ), 并 显 
示 妆 前 地 址 所 指定 单元 的 内 容 。“ 前 地 址 ”和 “后 地 址 ”用 于 连续 修改 一 片 的 内 存 数据 。 
“显示 ”按钮 用 于 显示 当前 地 址 所 指 单 元 的 内 容 。 在 修改 地 址 后 , 单 击 该 按钮 就 可 以 显示 
内 存单 元 的 内 容 。 

6. 统计 窗口 

该 窗口 显示 模拟 融 统 计 的 各 项 数据 ,如 下 所 示 。 

( 非 流 水 方式 下 ,没有 该 窗口 ) 


汇 总 各 
执行 周期 总 数 : 0 
ID 段 执行 了 0 条 指令 


硬件 配置 : 
内 存 容 量 : 4096 BB 
加 法 器 个 数 : 1 执行 时 间 ( 周 期 数 ): 6 
乘法 器 个 数 : 1 执行 时 间 ( 周 期 数 ): 7 
除法 硕 个 数 : 1 执行 时 间 ( 周 期 数 ): 10 


定 问 机 制 : 不 采用 


集 顿 (周期 数 ): 
RAW 停顿 : 0 占 周期 总 数 的 百分比 : 0% 
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其 中 : 
load 停顿 : 0 占 所 有 RAW 停顿 的 百分比 : 0% 
分 文 / 跳 转 停 顿 : 0 占 所 有 RAW 停顿 的 百分比 : 0% 
浮 点 停顿 : 0 占 所 有 RAW 停顿 的 百分比 : 0% 
WAW 停顿 : 0 占 周 期 总 数 的 百分比 : 0% 
结构 停顿 : 0 占 周 期 总 数 的 百分比 : 0% 
控制 停顿 : 0 占 周 期 总 数 的 百分比 : 0% 
自 隐 仿 顿 . 0 占 周 期 总 数 的 百分比 : 0% 
停顿 周期 总 数 : 0 占 周 期 总 数 的 百分比 : 0% 

分 支 指令 : 
指令 条 数 : 0 占 指令 总 数 的 百分比 : 0% 

其 中 : 
分 文成 功 : 0 占 分 支 指令 数 的 百分比 ; 0% 
分 文 失败 : 0 占 分 支 指令 数 的 百分比 : 0% 


load/store 指令 ， 


指令 条 数 : 0 占 指 令 总 数 的 百分比 : 0% 

其 中 : 
load: 0 占 load/store 指令 数 的 百分比 : 0% 
store: 0 占 loady/ store 指令 数 的 百分比 : 0 
指令 条 数 ; 0 占 指令 总 数 的 百分比 : 0% 

其 中 : 
加 法 : 0 占 浮 点 指令 数 的 百分比 : 0% 
乘法 : 0 占 浮 点 指令 数 的 百分比 : 0% 
除法 : 0 占 浮 点 指令 数 的 百分比 : 0% 

日 陷 指令 : 
指令 条 数 : 0 占 指令 总 数 的 百分比 : 0% 

7. 断 点 窗口 


断 点 一 般 是 指 指定 的 一 条 指令 , 当 程 序 执行 到 该 指令 时 ,会 中 断 执 行 ,暂停 在 该 指令 
上 。 在 本 模拟 顺 中 , 断 点 可 以 设 定 在 某 条 指令 的 某 一 个 流水 段 上 (如 果 是 在 流水 方式 下 ) 。 
当 该 指令 执行 到 相应 的 流水 段 时 ,会 中 断 执 行 。 

断 点 窗口 列 出 当前 已 经 设置 的 所 有 断 点 ,每 行 一 个 。 每 行 由 3 部 分 构成 : 地 址 (十 六 
进 制 ) ,流水 段 名 称 、 符 号 指令 ,如 图 1.7 所 示 ( 在 非 流 水 方式 下 ,“ 段 ”没有 意义 )。 
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辐 回 加 


地 址 段 指令 
0x0000000C MEM SW $2,60[$0] 


Dx00000010 IF TEQ $0,$0 
Dx00000034 ID JR $31 


1.7 断后 窗口 


该 窗口 上 方 有 四 个 按钮 : 添加 ,删除 ,全 部 删除 ,修改 。 

(1) 添加 

单 击 “添加 ”按钮 ,会 弹出 小 对 话 框 “设置 断 点 ”, 在 "地址 ? 杠 中 输入 断 点 的 十 六 进 制 地 
址 ,在 “ 段 ? 的 下 拉 杠 中 选择 在 哪个 流水 段 中 断 ( 非 流水 方式 下 ,不 需要 该 操作 ,下 同 ) , 单 击 
“确定 ”按钮 即 可 。 


(2) 删除 
选中 东 个 断 点 ( 单 击 断 点 列表 中 相应 的 一 项 ), 单 击 “ 删 际 ” 按 钮 , 则 该 断 点 被 清除 。 


(3) 全 部 删除 

单 击 “ 全 部 删除 ”按钮 ,所 有 断 点 都 将 被 清除 。 

(4) 修改 

选中 某 个 断 点 , 单 击 “ 修 改 ” 按 钮 ,会 弹出 小 对 话 框 “设置 断 点 ”, 在 “地 址 ” 框 中 输入 断 
点 的 地 址 ,在 “ 段 ” 的 下 拉 框 中 选择 在 哪个 流水 段 中 断 , 单 击 “ 确 定 ” 按 钮 即 可 将 原 断 点 修改 
为 新 设 断 点 。 


1.4.3 MIPSsim 的 菜单 


1. 文件 菜单 


文件 菜单 如 图 1.8 所 示 。 
(1) CPU 复位 


CPU 香 位 遐 ) 
将 模拟 天 中 CPU 的 状态 复位 为 默认 值 。 全 部 复位 世 ) 
退出 必 ) 
将 整个 模拟 天 的 状态 复位 为 默认 值 。 模 拟 硕 局 动 时 ,也 是 将 状 
态 设 置 为 默认 值 。 图 1.8 文件 荣 单 
(3) 载 人 程序 


将 要 模拟 执行 的 程序 载 人 模拟 豆 的 内 存 。 被 模拟 程序 可 以 是 汇编 程序 (.s 文件 ) ,也 
可 以 是 汇编 后 的 代码 (. bin 文件 )。 单 击 该 玉 单 后 ,系统 将 弹出 “ 载 人 ”对 话 框 ,选择 要 载 
入 的 文件 ,然后 单 击 “ 打 开 ”。 如 来 是 . s 文件 ,系统 会 对 该 文件 进行 汇编 。 奉 汇编 过 程 无 
错误 , 则 将 产生 的 二 进 制 代码 载 人 至 模拟 豆 的 内 存 ; 奋 有 错误 , 则 报告 错误 信息 。 如 宁 
是 .bin 文件 , 则 和 直接 将 该 文件 的 内 容 载 人 模拟 关内 存 。 
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被 载 和 程序 在 内 存 中 连续 存放 ,其 起 始 地 址 默认 为 0。 该 起 始 地 址 可 以 从 “代码 ” 菜 
单 中 的 “ 载 人 起 始 地 址 ?来 查看 和 修改 。 修 改 时 ,如 条 输入 的 地 址 不 是 4 的 整数 倍 ,模拟 融 
会 目 动 将 其 归 整 为 4 的 整数 倍 。 

(4) 退出 

退出 模拟 大。 

2. 执行 菜单 

该 菜单 提供 了 对 模拟 带 执 行程 序 进行 控制 的 功能 。 在 下 面 的 执行 方式 中 ,除了 单 步 
执行 , 当 遇 到 断 点 或 者 用 户 手 动 中 止 ( 用 "中 止 ? 染 单项 ) 时 ,模拟 硕 将 立即 暂停 执行 。 

在 流水 方式 下 ,执行 灯 单 如 图 1.9 所 示 。 

在 非 流 水 方式 下 ,执行 亲 单 如 图 1. 10 所 示 。 


单 步 执行 一 个 周期 @) FT 单 步 执行 一 条 指令 @) FT 
撒 销 上 一 个 周期 F8 擅 销 上 一 条 指令 WF8 
执行 多 个 周期 他 ) .。 89 执行 多 条 指令 虽 ..， 89 
连续 执行 已) 连续 执行 C) 
执行 到 (BR)... 执行 到 名 ). 
中 止 部 ) 中 止 加 ) 

图 1.9 流水 方式 下 的 执行 荣 单 图 1.10 非 流 水 方式 下 的 执行 亲 单 


(1) 单 步 执 行 一 个 周期 

执行 一 个 时 钟 周 期 ,然后 暂 仓 。 其 快捷 键 为 F7 ,该 亲 单 仅 出 现在 流水 方式 下 。 

(2) 撤销 上 一 个 周期 

模拟 硕 回 退 一 个 时 钟 周 期 , 即 恢复 到 执行 该 周期 之 前 的 状态 。 其 快捷 键 为 F8 ,该 来 
单 仅 出 现在 流水 方式 下 。 

(3) 执行 多 个 周期 

执行 多 个 时 钟 周期 ,然后 暂停 。 单 击 该 菜单 后 ,系统 会 弹出 一 个 小 对 话 框 ,由 用 户 指 
定 要 执行 的 周期 的 个 数 , 该 末 单 仅 出 现在 流水 方式 下 。 

(4) 连续 执行 

从 当前 状态 开始 连续 执行 程序 ,直到 程序 结束 或 遇 到 断 点 或 用 户 手动 中 止 。 

(5) 执行 到 

单 击 该 菜单 项 后 ,系统 会 弹出 一 个 “ 设 定 终点 ”小 对 话 框 ,由 用 户 指定 此 次 执行 的 终 
点 , 即 在 哪 条 指令 的 哪个 流水 段 暂停 。 单 击 “ 确 定 ” 按 钮 后 ,模拟 器 即 开始 执行 程序 ,直到 
到 达 终 点 位 置 或 遇 到 断 点 或 用 户 手 动 中 止 。 所 输入 的 终点 地 址 将 被 归 整 为 4 的 整数 倍 。 

(6) 中 止 

单 击 该 菜单 项 后 ,模拟 需 会 立即 暂停 执行 。 当 模拟 需 执 行程 序 出 现 长 期 不 结束 的 状 
况 时 ,可 用 该 菜单 强行 使 模拟 更 停止 执行 。 

(7) 单 步 执行 一 条 指令 

执行 一 条 指令 ,然后 暂停 。 该 指令 的 地 址 由 当前 的 PC 给 出 。 其 快捷 键 为 F7, 该 沫 
单 仅 出 现在 非 流 水 方式 下 。 
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(8) 撤销 上 一 条 指令 

模拟 需 回 退 一 条 指令 , 即 恢复 到 执行 该 指令 之 前 的 状态 。 其 快捷 键 为 F8, 该 菜单 仅 
出 现在 非 流水 方式 下 。 

(9) 执行 多 条 指令 

执行 多 条 指令 ,然后 暂停 。 单 击 该 菜单 项 后 ,系统 会 弹出 一 个 小 对 话 框 ,由 用 户 指定 
要 执行 的 指令 的 条 数 。 


3。 内存 全 单 


该 集 单 下 有 3 项 : 显示 、 修 改 、 符 号 表 。 

(1) 显示 

该 染 单 项 用 于 设置 显示 内 存 的 值 的 数据 类 型 与 格式 。 单 击 该 沫 单项 后 ,系统 会 弹出 
“内 存 显 示 ” 对 话 框 ,如 图 1. 11 所 示 。 在 选 定 所 要 的 数据 类 型 导 格 式 后 , 单 击 “ 确 定 " 按 钮 ， 
内 存 窗口 中 的 数据 就 会 按 指 定 的 数据 类 型 与 格式 显示 。 


数据 类 型 与 格式 

〇 十 进 制 字 节 加 开关 进 币 李 节 | 

〇 十 进 制 半 宇 刀 个 宇 节 ) 〇 十 六 进 制 半 宇 刀 个 宇 节 ) 
〇 十 进 制 字 个 字 节 ) 。 〇 十 六 进 制 宇和 个 字 节 ) 


人 十进制 戏 字 后 个 字 节 )] 听 ) 十 六 进 制 芍 字 所 个 字 节 ) 
〇 单 精度 浮 点 所 个 宇 节 )】 〇 戏 精 度 浮 点 名 个 宇 节 ) 


图 1.11 内 存 显示 窗口 


(2) 修改 

该 亲 单 项 用 于 对 内 存 的 值 进行 修改 。 单 击 该 菜单 项 后 ,系统 会 弹出 “内 存 修改 ”对 话 
框 ,该 对 话 框 与 图 1.6 的 ”内存 修改 2 相同 ,请 参见 相关 的 论述 。 

(3) 符号 表 

该 菜单 项 用 于 显示 符号 表 。 符 号 表 中 列 出 了 当前 被 执行 的 程序 中 各 符号 的 地 址 (内 
存 地 址 ) 。 


4. 代码 菜单 


(1) 载 人 起 始 地 址 

该 亲 单 项 用 于 显示 和 修改 代码 载 入 内 存 的 起 始 地 址 。 如 果 要 修改 ,只 要 在 弹出 的 “ 载 
入 起 始 地 址 ”对 话 框 中 输入 新 的 地 址 ,然后 单 击 “ 确 定 ” 按 钮 即 可 。 

(2) 设置 断 点 

单 击 该 菜单 项 ,会 弹出 “设置 断 点 ”小 对 话 框 ,输入 断 点 地 址 ,并 在 “ 段 ” 的 下 拉 杠 中选 
择 断 点 所 在 的 流水 段 (在 非 流 水 方式 下 ,不 存在 该 下 拉 框 ), 单 击 “ 确 定 ” 按 钮 即 可 。 

(3) 取消 断 点 

在 代码 窗口 中 选择 某 条 指令 ,然后 单 击 该 沫 单项 , 则 设置 在 该 指令 处 的 断 点 被 删除 。 
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(4) 清除 所 有 上 断 点 


清除 所 有 上 断 点 。 
5. 配置 菜单 
配置 菜单 用 于 修改 模拟 器 的 配置 。 需 要 注意 的 是 ,修改 配置 将 会 使 模拟 器 复位 。 


配置 菜单 如 图 1. 12 所 示 。 


宫 栅 配置 (6)... 


(1) 常规 配置 流水 方式 也) 
a  . , 符号 地 址 @) 
该 菜单 项 用 于 查看 和 设置 以 下 参数 (其 默认 值 见 1. 4. 1 节 ); 0 

4 内 存 容量 ; 定向 还 ) 
延迟 粮 0) 

> 人 苗 证件 个 江 ( 矿 ， Ee 

. 入 尽 加 法 运 蜡 部 件 | 数 ， 载 人 配置 () 

4 浮 点 乘法 运算 部 件 个 数 ，; 保存 配置 G) 

ee 

* 浮 点 加 法 运算 延迟 周期 数 ; 

* 学 点 乘法 运算 延迟 周期 数 ， 

* 浮 点 除法 运算 延迟 周期 数 。 


如 果 要 修改 这 些 参 数 , 只 要 和 耻 接 修改 ,然后 单 击 “确定 ”按钮 即 可 。 

(2) 流水 方式 

“流水 方式 ”开关 。 当 该 项 被 勾 选 ( 即 其 前 面 有 个 ~ 号) 时 ,模拟 器 按 流 水 方式 工作 ,能 
模拟 流水 线 的 工作 过 程 。 否 则 ( 即 没 有 被 勾 选 ) 就 是 按 串 行 方式 执行 程序 。 

该 项 的 勾 选 和 去 选 ( 妈 去掉 其 前 面 的 ~ 号) 都 是 通过 单 击 该 项 来 实现 的 ,下 同 。 

当 从 流水 方式 切换 为 非 流 水 方式 (或 相反 ) 时 ,系统 将 强行 使 模拟 器 的 状态 复位 。 

(3) 符号 地 址 

“符号 地 址 ”开关 。 当 该 项 被 勾 选 时 ,代码 窗口 中 的 代码 将 显示 原 汇 编程 序 中 所 采用 
的 标号 ,否则 ( 即 没 有 被 勾 选 ) 就 不 显示 。 

(4) 绝对 周期 计数 

“绝对 周期 计数 ”开关 。 当 该 项 被 勾 选 时 ,时 钟 周期 图 窗口 中 的 横 坐 标 将 显示 为 绝对 
周期 ,即时 钟 周 期 按 0、1、2……… 顺序 递增 的 顺序 计数 。 否 则 ( 即 没 有 被 勾 选 ) 就 按 相对 周 
期 计数 , 即 把 当前 周期 记 为 第 0 个 周期 ,而 其 余 周 期 (在 左边 ) 则 按 其 相对 于 当前 周期 的 位 
置 ,分别 记 为 一 1、 一 2、 一 3…… 等 。 

在 非 流水 方式 下 ,该 沫 单项 不 起 作用 ( 变 灰 )。 

(5) 定向 

“和 定 回 ?开关 ,用 于 指定 是 否 采用 定 回 拉 术 。 当 该 项 被 义 选 时 ,模拟 硕 在 执行 程序 时 将 
采用 定 癌 技术 ,否则 就 不 采用 。 

在 非 流水 方式 下 ,该 沫 单项 不 起 作用 ( 变 灰 )。 

(6) 延迟 权 

“ 延 开 槽 ?开关 ,用 于 指定 是 否 有 用 延 反 分 文 扩 术 。 当 该 项 被 义 选 时 ,模拟 融 在 执行 程 
序 时 将 采用 一 个 延迟 槽 ,否则 就 不 采用 。 

在 非 流水 方式 下 ,该 沫 单项 不 起 作用 ( 变 灰 )， 
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(7) 载 人 配置 

用 于 将 一 个 配置 文件 (. cfg) 载 入 模拟 回 , 模 拟 需 将 按 该 文件 进行 配置 并 复位 。 单 击 
该 菜单 项 ,系统 将 弹出 "打开 ”对话 框 ,让 用 户 指 定 所 要 载 人 的 配置 文件 。 

(8) 保存 配置 

用 于 将 模拟 器 当前 的 配置 保存 到 一 个 配置 文件 (. cfg) 中 ,以 便 以 后 重用 。 单 击 该 菜 
单项 ,系统 将 弹出 "保存 文件 ?对 话 框 ,让 用 户 指定 配置 文件 的 名 称 和 位 置 。 


6. 窗口 菜单 

(1) 平 铺 

将 当前 已 打开 的 子 窗口 平 铺 在 主 窗 口中 。 
(2) 层 登 


将 当前 已 打开 的 子 窗口 层 登 在 主 窗口 中 。 

(3) 打开 所 有 

将 所 有 子 窗 口 都 打开 。 

(4) 收 起 所 有 

将 所 有 子 窗 口 最 小 化 。 

(5) 选择 子 窗口 

在 该 菜单 中 还 列 出 了 所 有 的 子 窗口 的 名 称 , 选 择 其 中 的 任 一 个 ,将 使 该 窗口 被 选中 ， 
并 被 提 到 最 上 层 。 


7. 帮助 菜单 


该 菜单 下 有 两 项 :“ 帮 助 ?“ 和 “关于 MIPSsim”。 前 者 提供 用 户 手 册 , 后 者 给 出 关于 
MIPSsim 的 版 权 信息 和 设计 开发 者 信息 。 


1.5 相关 知识 : MIPS 指令 系统 


1981 年 ,Stanford 大 学 的 Hennessy 及 其 同事 们 发 表 了 他 们 的 MIPS 计算 机 ,后 来 ， 
在 此 基础 上 形成 了 MIPS 系列 微 处 理 硕 。 到 目前 为 止 ,已 经 出 现 了 许多 版 本 的 MIPS。 
下 面 将 介绍 MIPS64 的 一 个 子 集 ,并 将 它 简 称 为 MIPS。 


1.5.1 MIPS 的 寄存 器 


MIPS64 有 32 个 64 位 通用 寄存 器 : RO0,R1,…,R31。 它 们 简称 为 GPRs (General- 
Purpose Registers) ,有 时 也 称 为 整数 寄存 和希 。R0 的 值 永 十 是 0。 此 外 ,还 有 32 个 64 位 
浮 点 数 寄 存盘: FO0,Fl1,…,F31]。 它 们 简称 为 FPRs(Floating-Point Registers)。 它 们 区 
可 以 用 来 存放 32 个 单 精 度 浮 点 数 (32 位 ) ,也 可 以 用 来 存放 32 个 双 精 度 浮 点 数 (64 位 )。 
存储 单 精 度 浮 点 数 (32 位 ) 时 ,只 用 到 FPR 的 一 半 , 其 男 一 半 没 用 。MIPS 提供 了 单 精 度 
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和 双 精 度 (32 位 和 64 位 ) 操 作 的 指令 ,而 且 还 提供 了 在 FPRs 和 GPRs 之 间 传 送 数据 的 
指令 。 

另外 ,还 有 一 些 特殊 寄存 器 ,例如 浮 点 状态 寄存 器 ,它们 可 以 与 通用 寄存 器 交换 数据 ， 
浮 点 状态 寄存 细 用 来 保存 有 关 浮 点 操作 结果 的 信息 。 


1.5.2 MIPS 的 数据 表示 


MIPS 的 数据 表示 有 : 

(1) 整数 : 字 节 (8 位 ) . 半 字 (16 位 )、 字 (32 位 ) 和 双 字 (64 位 ) 。 

(2) 浮 点 数 : 单 精 度 浮 点 数 (32 位 ) 和 双 精 度 浮 点 数 (64 位 )。 

之 所 以 设置 半 字 操作 数 类 型 ,是 因为 在 类 似 于 C 的 高 级 语言 中 有 这 种 数据 类 型 , 而 
量 在 操作 系统 等 程序 中 也 很 常用 ,这 些 程序 很 重视 数据 所 占 的 空间 大 小 。 设 置 单 精度 浮 
点 操作 数 也 是 基于 类 似 的 原因 。 

MIPS64 的 操作 是 针对 64 位 整数 以 及 32 位 或 64 位 浮 点 数 进行 的 。 字 节 、 半 字 或 者 
字 在 狐 人 人 64 位 寄存 需 时 ,用 零 扩 展 或 者 用 符号 位 扩展 来 填充 该 寄存 硕 的 剩余 部 分 。 装 人 
以 后 ,对 它们 将 按照 64 位 整数 的 方式 进行 运算 。 


1.5.3 MIPS 的 数据 寻 址 方式 


MIPS 的 数据 寻 址 方式 只 有 立即 数 寻 址 和 偏 移 量 寻 址 两 种 ,立即 数字 段 和 仿 移 量 
字段 部 是 16 位 的 。 寄 存 融 间接 寻 址 是 通过 把 0 作为 偏 移 量 来 实现 的 ,16 位 绝对 寻 址 
是 通过 把 RO( 其 值 永远 为 0) 作为 基 址 寄存 问 来 完成 的 ,这 样 实 际 上 就 有 了 4 种 寻 址 
方式 。 

MIPS 的 寻 址 方式 是 编码 到 操作 人 码 中 的 。 

MIPS 的 存储 器 是 按 字 节 寻 址 的 ,地 址 为 64 位 。 由 于 MIPS 是 load-store 结构 ， 
GPRs 和 FPRs 与 存储 融 之 间 的 数据 传送 都 是 通过 load 和 store 指令 来 完成 的 。 与 GPRs 
有 关 的 存储 需 访 问 可 以 是 字 节 、 半 字 、 字 或 双 字 ,与 FPRs 有 关 的 存储 需 访 问 可 以 是 单 精 
度 浮 点 数 或 双 精 度 浮 点 效 , 所 有 存储 天 访 问 都 必须 是 边界 对 齐 的 。 


1.5.4 MIPS 的 指令 格式 


为 了 使 处 理 需 更 容易 进行 流水 实现 和 译 码 ,所 有 的 指令 都 是 32 位 的 ,其 格式 见 图 1. 13。 
这 些 指令 格式 很 简单 ,其 中 操作 码 占 6 位 。MIPS 按 不 同类 型 的 指令 设置 不 同 的 格式 , 共 
有 3 种 格式 ,它们 分 别 对 应 于 工 类 指令 、R 类 指令 J 类 指令 。 在 这 3 种 格式 中 ,同名 字段 
的 位 置 固定 不 变 。 

1. I 类 指令 


这 类 指令 包括 所 有 的 load 和 store 指令 .立即 数 指令 .分 文 指 令 . 襄 存 融 跳 转 指 令 、 寄 
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0 9 3 
0 $6 10 11 15 16 31 
(a) I 类 指令 


0 5 0 10 11 lS 16 20 2] 25 20 31 


(b) R 类 指令 


6 20 


ET 


(c) J 类 指令 
图 1.13 ” MIPS 的 指令 格式 


存 器 链接 跳 转 指令 。 其 格式 如 图 1. 13(a) 所 示 , 其 中 的 立即 数字 段 为 16 位 ,用 于 提供 立 
(1) load 指令 
访 存 有 效 地 址 为 RegsLrsj 十 immediate, 从 存储 囊 取 来 的 数据 放 人 寄存 大 rt。 
(2) store 指令 
访 存 有 效 地 址 为 Regslrs | 十 immediate, 要 存 人 存储 大 的 数据 放 在 寄存 善 rt 中 ， 
(3) 立即 数 指令 
Regs[rt]<—Regs[rs] op immediate 
(4) 分 文 指 令 
转移 目标 地 址 为 Regsl rs|j 十 immediate,rt 无 用 。 
(5) 寄存 需 跳 苇 .寄存 闪 跳 技 并 链接 
转移 目标 地 址 为 RegslLrs | 。 


2. R 类 指令 
R 类 指令 包括 ALU 指令 .专用 寄存 硕 读 /与 指令 .move 指令 等 。 


Regds[rd]j< 一 Regs[rs|j funct Regs[rt| 
funct 为 具体 的 运算 操作 编码 。 
3. 本 类 指令 


本 类 指令 包括 跳 转 指令 . 跳 转 并 链接 指令 .上 月 陷 指令 .异常 返回 指令 。 在 这 类 指令 中 ， 
指令 字 的 低 26 位 是 仿 移 量 , 它 与 PC 值 相 加 形成 跳 转 的 地 址 。 


um 
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1.5.5 MIPS 的 部 分 指令 介绍 


MIPS 指令 可 以 分 为 4 大 类 : load 和 store、.ALU 操作 分支 与 跳 转 、 浮 点 操作 。 


1. 


load 和 store 指令 


除了 Ro 外 ,所 有 通用 寄存 右 与 浮 点 寄存 器 都 可 以 进行 load 或 store。 表 1.1 给 出 了 
load 和 store 指令 的 一 些 具体 例子 。 单 精度 浮 点 数 占 用 浮 点 寄存 器 的 一 半 , 单 精度 与 双 
精度 之 间 的 转换 必须 显 式 地 进行 。 浮 点 数 的 格式 是 IEEE 754。 


表 1.1 MIPS 的 load 和 store 指令 的 例子 


LD R2,20(R3) 装 人 双 字 Regs[| R2 |<—s Mem| 20 十 RegsLR3 | 


Regs| R2 | < 一 (ML 40 十 Regs| R3 op M 
LW R?,40(R3) 装 人 字 egs| < (Meml| egs| 」]]。)” 失 划 eI 
[40 十 Regs| R3 | 


LB R2,30(R3) 


指令 举例 指令 名 称 含义 


Regs| R2 |<—,, (Mem| 30 十 Regs| R3 | |,)” ## Mem 
| 30 十 RegsLR3 | 


LBU R2,40(R3) 装 人 无 符号 字 节 Regs| R2 |<—s, 0 ## Meml 40 十 RegsLR3 | 

a 装 和 半 字 RegslL R2 |<—s (Mem| 30 十 RegslL R3 | |，) 扣 ## 
Mem| 30 二 Regs| R3 | |]## Meml| 31+ Regs| R3 || 

L. S F2,60(R4) 装 入 单 精度 浮 点 数 | Regs[F2]<-6 Mem[ 60 十 RegsLR4]] ### 0” 

L. D F2,40(R3) 装 人 双 精 度 浮 点 数 | Regs| F2 | 二 ,Mem| 40 十 Regs| R3 || 

SD R4,300(R5) Mem[ 300 二 Regs[ R5]]<-6 Regs[ R4] 


SW R4,300(R5) Mem[300 十 Regs[R5]]<-;,。Regs[R4] 


保存 单 精度 浮 点 数 MemL40 十 RegsLR2 | | Regs[L F2 ja 


说 明 : 要 求 内 存 的 值 必 须 是 边界 对 齐 。 


在 下 面 解 释 指 令 的 操作 时 ,我 们 采用 了 类 似 于 C 语言 的 描述 语言 。 生 号 的 意义 
如 下 : 


Regs 表示 寄存 天 组 。 

方 括号 表示 内 容 ,Mem| jj 表示 存储 器 的 内 容 ,Regs[ j 表 示 寄 存 需 的 内 容 。 

“x 一 ,y” 表示 从 yy 传送 nn 位 到 x。“x,y<z” 表 示 把 z 传 送 到 x 和 y。 

用 下 标 表 示 字 段 中 具体 的 位 。 对 于 指令 和 数据 , 按 从 最 高 位 到 最 低位 ( 即 从 左 到 
右 ) 的 顺序 依次 进行 编号 ,最 高 位 为 第 0 位 ,次 高 位 为 第 1 位 , 依 此 类 推 。 下 标 可 
以 是 一 个 数字 ,也 可 以 是 一 个 范围 。 例 如 : RegsLR4j,。 表 示 寄 存 器 R4 的 符号 位 ， 
RegsLR4 js6.6;3 表示 R4 的 最 低 字 市。 

上 标 用 于 表示 对 字段 进行 复制 的 次 数 。 例 如 0” 表示 一 个 32 位 长 的 全 0 字段 。 


符号 井 # 用 于 两 个 字段 的 拼接 ,并 且 可 以 出 现在 数据 传送 的 任何 一 边 。 


下 面 举 个 例子 。 假 设 R8 和 R6 是 64 位 的 寄存 器 , 则 
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Regs[ R8 ]32..63 32 (Mem [Regs[R6 | |]o )“” 井 井 Mem [Regs[ R6 |]] 


表示 的 意义 是 : 以 R6 的 内 容 作 为 地 址 访问 主 存 ,得 到 的 字 节 按 符 号 位 扩展 为 32 位 后 存 
入 R8 的 低 32 位 ,R8 的 高 32 位 ( 即 Regs[R8]。;) 不 变 。 


2. ALU 指令 


MIPS 中 所 有 的 ALU 指令 都 是 寄存 硕 一 寄存 部 型 (RR 型 ) 或 立即 数 型 的 。 运 算 操 
作 包 括 算术 和 逻辑 操作 : 加 、 减 、 与 .或 、 异 或 和 移 位 等 。 表 1.2 中 给 出 了 一 些 例 子 , 所 有 
这 些 指令 都 支持 立即 数 寻 址 模式 ,参与 运算 的 立即 数 是 由 指令 中 的 immediate 字段 ( 低 16 
位 ) 经 符号 位 扩展 后 生成 。 
表 1.2 MIPS 中 ALU 指令 的 例子 


DADDU RI1,R2?,R3 Regs[ R1]<—Regs[ R2]++ Regs[ R3] 
DADDIU R4,R5, #6 加 无 符号 立即 数 Regs| R4 |<—Regs| R5 | 二 6 

LUI R1, #4 把 立即 数 装 人 到 一 个 字 的 高 16 位 | Regs[R1]<-03? 间 宁 4 间 宁 01 
DSLL RI1,R2,#5 Regs[R1]<_Regs[ R2]<<5 
I{(Regsl R2 | 一 Regs| R3 |) 
Regs| R1 |<—1 else Regs| R1 |<—0 


DSLT R1,R2,R3 置 小 于 


R0 的 值 永 远古 0, 它 可 以 用 来 合成 一 些 常 用 的 操作 。 例 如 ， 


DADDIU R1, RO, #100 // 给 寄存 器 Rl1 装 人 常数 100 
又 如 ， 
DADD R1, RO, R2 // 把 寄存 硕 R2 中 的 数据 传送 到 寄存 器 R1 


3. 控制 指令 


表 1.3 给 出 了 MIPS 的 几 种 典型 的 跳 转 和 分 支 指令 。 跳 转 是 无 条 件 转 移 , 而 分 文 则 
部 是 条 件 转 移 。 根 据 跳 苇 指令 确定 目标 地 址 的 方式 不 同 以 及 跳 装 时 是 否 链接 ,可 以 把 跳 
层 指 令 分 成 4 种 。 在 MIPS 中 ,确定 转移 目标 地 址 的 一 种 方法 是 把 指令 中 的 26 位 侦 移 量 
左 移 2 位 (因为 指令 字 长 部 是 4 字 市 ) 后 , 蔡 换 程序 计数 副 的 低 28 位 ; 为 外 一 种 方法 是 由 
指令 中 指定 的 一 个 寄存 带 来 给 出 转移 日 标 地 址 , 即 间接 跳 转 。 简 单 跳 转 很 简单 ,就 是 把 日 
标 地 址 送 入 程序 计数 带 。 而 跳 转 并 链接 则 要 比价 单 跳 转 多 一 个 操作 , 即 把 返回 地 址 ( 即 顺 
序 下 一 条 指令 的 地 址 ) 放 入 寄存 器 R31。 跳 转 并 链接 用 于 实现 过 程 调用 。 

所 有 的 分 支 指 令 痢 是 条 件 苇 移 。 分 文 条 件 由 指令 确定 ,例如 ,可 能 是 测试 东 个 寄存 冀 
的 值 是 否 为 零 。 该 寄存 器 可 以 是 一 个 数据 ,也 可 以 是 前 面 一 条 比较 指令 的 结果 。MIPS 
提供 了 一 组 比较 指令 ,用 于 比较 两 个 寄存 硕 的 值 。 例 如 ，“ 置 小 于 ?指令 ,如 宁 第 一 个 寄存 
船 中 的 值 小 于 第 二 个 寄存 天 , 则 该 比较 指令 在 目的 寄存 货 中 放置 一 个 1 代表 真 ) ,否则 将 
放置 一 个 0( 代 表 假 )。 类 似 的 指令 还 有 “ 置 等 于 ”"、“ 置 不 等 于 ”等 。 这 些 比 较 指令 还 有 一 
套 与 立即 数 进 行 比较 的 形式 。 
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表 1.3 典型 的 MIPS 控制 指令 


Ta ET 


Regs| R31 |< 二 PC 十 4 PC 63 < 一 name; 


JAL name 
((PC++4)—2”7)<name<((PC+4) 二 277) 
JALR R3 寄存 器 跳 转 并 链接 Regs[ R31 |<—PC++4; PC<-Regs[ R3] 
JR FRs 寄存 希 跳 转 PC<—Regsl R5| 
: if{(Regs[ R4]==0) PC<— ; 
i de 等 于 零 时 分 支 Ee ee 


((PC 十 4) 一 2 ) 过 name<<((PC 十 4) 十 2 ) 
if(Regs| R3 |]!= RegsL R41) PC<—name; 
《(PC 十 4) 一 2 ) 往 name<( (PC 十 4)7 十 2 ) 
MOVZ FRl,FR2,FR3 和 等于零 时 移动 if(Regs| R3 |==0) Regs| R1 |<—Regs| R2 | 
说 明 : 除了 以 寄存 器 中 的 内 容 作 为 目标 地 址 进行 跳 转 以 外 ,所 有 其 他 控制 指令 的 跳 转 地 址 都 是 相对 于 PC 的 ， 


BNE R3,R4,name 不 相等 时 分 文 


有 的 分 文 指令 可 以 直接 判断 奇人 天 内 容 是 否 为 负 ,或 者 比较 两 个 寄 仔 天 是 否 相 等 。 
分 文 的 目标 地 址 由 16 位 市 符号 俩 移 量 左 移 两 位 后 和 PC 相 加 的 结 来 来 决定 。 为 外 ， 
还 有 一 条 浮 点 条 件 分 文 指 令 ,该 指令 通过 测试 浮 点 状态 寄存 硕 来 决定 是 否 进行 分 文 。 


4. 浮上 点 指令 


浮 点 指令 对 浮上 点 寄存 天 中 的 数据 进行 操作 ,并 巾 操作 码 指 出 操作 数 是 单 精 度 (SP) 还 
是 双 精 度 (DP) 的 。 在 指令 助 记 符 中 ,用 后 级 S 和 DD 分 别 表示 操作 数 是 单 精度 还 是 双 精 度 
浮 点 数 。 例 如 MOV.S 和 MOV.D 分 别 是 把 一 个 单 精 度 浮 点 寄存 天 (MOV. S) 或 一 个 双 
精度 浮 点 寄存 着 (MOV. D) 中 的 值 复 制 到 另 一 个 同类 型 的 寄存 需 中 。MFC1 和 MTC1 是 
在 一 个 单 精度 浮 点 寄存 器 和 一 个 整数 寄存 占 之 间 传 送 数 据 。 男 外 ,MIPS 还 设置 了 在 整 
数 与 浮 点 之 间 进 行 相互 转换 的 指令 。 

浮 点 操作 包括 加 、 减 、 乘 、 除 ,分 别 有 单 精度 和 双 精 度 指 令 。 例 如 : 加 法 指令 ADD. D 
( 双 精 度 ) 和 ADD. S( 单 精度 ) ,减法 指令 SUB. D 和 SUB. S 等 。 浮 点 数 比较 指令 会 根据 
比较 结果 设置 浮 点 状态 寄存 器 中 的 某 一 位 ,以 便于 后 面 的 分 支 指令 BC1T( 若 真 则 分 支 ) 
或 BC1F( 硅 假 则 分 文 ) 测 试 该 位 ,以 决定 是 否 进 行 分 文 。 


右 


1.5.6 汇编 程序 举例 


. data 

. globl main 

. text 

main: 

ADDU Sr4, Sr3, $r2 
NOR S$r5, $r6, $r7 
SLL S$r8, $r9,3 
MTHI S$r10 

dfs 

DMTC1 S$rll1, $f1 


BGTZ Sr12, Loop 

J main 

loop: 

LWU S$r13,2( S$r14) 
SDC1 $f2,4( S$r15) 
TLT S$r16, $r17 
SUB.S $f3, $f4, $f5 
BC1F 3, loop 

CVT. S.W S$f6, $f£7 
SYSCALL 


. data 

.align 4 

arr: ,byte 1,2,3 
str: .asciiz "abcd" 
db: .double 1.1,1.2 
. extern label 10 
ft: .float 1.0 
.Space 9 
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实验 2 流水 线 及 流水 线 中 的 冲突 


2.1 实验 目的 


(1) 加 深 对 计算 机 流水 线 基本 概念 的 理解 。 
(2) 理解 MIPS 结构 如 何 用 5 段 流 水 线 来 实现 ,理解 各 段 的 功能 和 基本 操作 。 
(3) 加 深 对 数据 冲突 ,结构 冲突 的 理解 ,理解 这 两 类 冲突 对 CPU 性 能 的 有 影响。 


(4) 进一步 理解 解决 数据 冲突 的 方法 ,和 擎 握 如 何 应 用 定 癌 技术 来 减少 数据 冲突 引起 
的 停顿 。 


2.2 实验 平台 


实验 平台 采用 指令 级 和 流水 线 操作 级 模拟 天 MIPSsim。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 : Arch365 

请 扫描 以 下 二 维 码 , 单 击 关注 后 , 按 提示 操作 。 


2.3 实验 内 容 和 步骤 


自 先 要 掌握 MIPSsim 模拟 大 的 使 用 方法 ( 见 1.4 市 )。 

(1) 启动 MIPSsim。 

(2) 根据 预备 知 ahi A - 步 理 解 流水 线 窗口 中 各 段 的 
功能 , 苞 握 各 流水 寄存 天 的 含义 。 tree 人 olopmei 
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(3) 参照 实验 1.4 节 的 使 用 说 明 ,熟悉 MIPSsim 模拟 器 的 操作 和 使 用 方法 。 

可 以 先 载 和 人 一 个 样 例 程 序 ( 在 本 模拟 器 所 在 的 文件 夹 下 的 “ 样 例 程序 ”文件 夹 中 ), 然 
后 分 别 以 单 步 执 行 一 个 周期 .执行 多 个 周期 连续 执行 .设置 断 点 等 的 方式 运行 程序 ,观察 
程序 的 执行 情况 ,观察 CPU 中 寄存 右 和 存储 占 的 内 容 的 变化 ,特别 是 流水 寄存 颖 内 容 的 

(4) 选择 配置 染 单 中 的 "流水 方式 ”, 使 模拟 硕 工 作 于 流水 方式 下 。 

(5) 观察 程序 在 流水 线 中 的 执行 情况 ,步骤 如 下 。 

DO 选择 MIPSsim 的 “文件 ”一 * 载 人 程序 ?选项 来 加 载 pipeline. s (在 模拟 器 所 在 文件 
夹 下 的“ 样 例 程序 ?文件 夹 中 ) 。 

名 关闭 定向 功能 。 这 是 通过 选择 "配置 ”和 定向 ”( 使 该 项 前 面 没 有 、/ 号 ) 来 实现 的 。 

G) 用 单 步 执行 一 周期 的 方式 (“执行 ”菜单 中 ) 或 用 F7 键 执行 该 程序 ,观察 每 一 周期 
中 ,各 段 流水 寄存 器 内 容 的 变化 ,指令 的 执行 情况 代码 ”窗口 ), 以 及 时 钟 周 期 图 。 

由 当 执 行 到 第 13 个 时 钟 周期 时 ,各 段 分 别 正在 处 理 的 指令 是 : 

IF: 


WB. 

团 出 此 时 的 时 钟 周 期 图 。 

(6) 这 时 各 流水 寄存 融 中 的 内 容 为 : 

IF/ID. IR. 

IF/1ID. NPC. 

ID/EX. A. 

ID/EX. B. 

ID/EX. Imm: 

ID/EX. LIR : 

EX/MEM. ALUo: 

EX/MEM. IR. 

MEM/WB. LMD: 

MEM/ WB. ALUo: 

MEM,/ WB. IR : 

(7) 观察 和 分 析 结 构 冲 突 对 CPU 性 能 的 影响 ,步骤 如 下 。 

QD 加载 structure_hz. s( 在 模拟 大 所 在 文件 夹 下 的 " 样 例 程序 ?文件 夹 中 ) 。 

名 执行 该 程序 , 找 出 存在 结构 冲突 的 指令 对 以 及 导致 结构 冲突 的 部 件 。 

G@ 记录 巾 结构 冲突 引起 的 停顿 时 钟 周期 数 ,计算 停顿 时 钟 周期 数 占 总 执行 周期 数 的 
昕 分 比 。 

出 把 浮 点 加 法 冀 的 个 数 改 为 4 个 。 

中 再 次 重复 上 述 中 一 四 的 工作 。 
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G@) 分 析 结 构 冲 突 对 CPU 性 能 的 影响 ,讨论 解决 结构 冲突 的 方法 。 

(8) 观察 数据 冲突 并 用 定 回 技术 来 减少 停顿 ,步骤 如 下 。 

外 加 载 data_hz. s( 在 模拟 器 所 在 文件 夹 下 的 “ 样 例 程序 ”文件 夹 中 )。 

@ 关闭 定向 功能 。 这 是 通过 选择 “配置 "一 “定向 ”( 使 该 项 前 面 没 有 ~/ 号 ) 来 实 
现 的 。 

() 用 单 步 执行 一 个 周期 的 方式 (F7) 执 行 该 程序 ,同时 查看 时 钟 周 期 图 , 列 出 在 什么 
时 刻 发 生 了 RAW( 先 写 后 读 ) 冲 突 。 

@) 记录 数据 冲突 引起 的 停顿 时 钟 周期 数 以 及 程序 执行 的 总 时 钟 周期 数 , 计 算 停顿 时 
钟 周期 数 占 总 执行 周期 数 的 百分比 。 

@@ 复位 CPU。 

GO 打开 定 问 功能 。 这 是 通过 选择 “配置 ”一 “ 定 问 ”( 使 该 项 前 面 有 一 个 VV 号) 来 实 
现 的 。 

@ 用 单 步 执行 一 个 周期 的 方式 (F7) 执 行 该 程序 ,同时 查看 时 钟 周 期 图 , 列 出 在 什么 
时 刻 发 生 了 RAW( 先 写 后 读 ) 冲 突 , 并 与 的 结果 进行 比较 。 

@ 记录 数据 冲突 引起 的 停顿 时 钟 周期 数 以 及 程序 执行 的 总 时 钟 周期 数 , 计 算 采 用 定 
问 技术 后 性 能 提高 的 倍数 。 


2.4 MIPSsim 使 用 手册 
见 实 验 1 的 1.4 节 ， 
2.5 相关 知识 : 流水 线 、 相 关 与 冲突 


2.5.1 一 条 经 典 的 $ 段 流水 线 


下 面 介 绍 一 条 经 由 的 5 段 RISC 流水 线 。 
先 考虑 在 非 流 水 情况 下 是 如 何 实 现 的 ,把 一 条 指令 的 执行 过 程 分 为 以 下 5 个 时 钟 


1。 取 指令 周期 (IF) 


以 程序 计数 右 PC 中 的 内 容 作 为 地 址 ,从 存储 背 中 取出 指令 并 放 和 人 指令 寄存 化 IR 
中 ; 同时 PC 值 加 4( 假 设 每 条 指令 占 4 个 字 节 ) , 指 回 顺 序 的 下 一 条 指令 。 


. 指令 译 码 / 读 寄存 器 周期 ( 含 分 支 转移 ) (ID) 
对 指令 进行 详 码 ,并 用 IR 中 的 寄存 带 地 址 去 访问 通用 寄存 问 组 , 读 出 所 需 的 操 
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作 数 。 

对 于 人 分支 指令 来 说 ,还 要 进行 以 下 操作 : 

(1) 把 指令 中 给 出 的 偏 移 量 与 PC 值 相 加 ,形成 转移 目标 的 地 址 。 

(2) 对 刚 从 寄存 天 组 该 出 的 数据 进行 判断 ,确定 分 文 是 否 成 功 。 如 朱 分 文成 功 , 就 把 
巷 移 目标 地 址 送 入 PC ,分 文 指 令 执行 完成 。 否 则 ,就 不 进行 任何 操作 。 


3. 执行 /有 效 地 址 计算 周期 (EX) 


在 这 个 周期 ,ALU 对 在 上 一 个 周期 准备 好 的 操作 数 进行 运算 或 处 理 , 不 同 指令 所 进 
行 的 操作 不 同 。 

(1) load 和 store 指令 : ALU 把 指令 中 所 指定 的 寄存 融 的 内 容 与 但 移 量 相 加 ,形成 
访 仔 有 效 地址 。 

(2) 寄存 天 一 寄存 关 ALU 指令 : ALU 按照 操作 码 指 定 的 操作 对 从 通用 寄存 融 组 中 
读 出 的 数据 进行 运算 。 

(3) 寄存 硕 一 立即 数 ALU 指令 : ALU 按照 操作 码 指定 的 操作 对 从 通用 寄存 硕 组 中 
读 出 的 操作 数 和 指令 中 给 出 的 立即 数 进行 运算 。 


4. 存储 器 访问 (MEM) 


如 采 是 load 指令 , 驶 用 上 一 个 周期 计算 出 的 有 效 地 址 从 存储 带 中 谈 出 相应 的 数据 ; 
如 有 条 是 store 指令 , 驶 把 指定 的 数据 与 人 这 个 有 效 地 址 所 指出 的 存储 豆单 元 。 
其 他 类 型 的 指令 在 此 周期 不 做 任何 操作 。 


s. 与 回 周期 (WB) 


把 结果 写 人 通用 寄存 天 组 。 对 于 ALU 运算 指令 来 说 ,这 个 结果 来 目 ALU ,而 对 于 
load 指令 来 说 ,这 个 结 来 来 日 存储 遂 。 

把 上 述 实 现 方 条 改造 为 流水 线 实现 是 比较 人 简单 的 ,只 要 把 上 面 的 每 一 个 周期 作为 一 
个 流水 段 , 并 在 各 段 之 间 加 上 锁 存 天 ,就 构成 了 如 图 2. 1 所 示 的 5 段 流水 线 。 这 些 锁 存 玫 
称 为 流水 案 和 存 大 。 如 来 在 每 个 时 钟 周 期 局 动 一 条 指令 , 则 采用 流水 方式 后 的 性 能 将 是 非 
流水 方式 的 5 们 。 当 然 , 事 悄 也 没 这 么 和合 单 ,还 要 解决 好 流水 处 理 市 来 的 一 些 问 题 。 


| | | | 
IF 段 | ID 段 i EX 段 i MEM 段 | WB 段 


并 水 线 寄存 器 
图 2.1 一 条 经 典 的 5 有 段 流水 线 
为 了 解决 对 同一 通用 寄存 器 的 访问 冲突 ,我 们 把 写 操作 安排 在 时 钟 周 期 的 前 半 拍 完 
成 ,把 读 操 作 安 排 在 后 半 拍 完成 。 在 图 2. 1 以 及 后 面 的 图 中 ,部 件 Reg 的 边框 为 实 线 表 
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示 进 行 读 或 写 操作 ,而 虚线 则 表示 不 进行 操作 。 
2.5.2 相关 与 流水 线 冲 突 

1. 相关 

相关 是 指 两 条 指令 之 间 存 在 某 种 依赖 关系 。 如 果 指 令 之 间 没 有 任何 关系 ,那么 当 流 
水 线 有 足够 的 人 硬件 资源 时 ,它们 就 能 在 流水 线 中 顺利 地 重 倒 执行 ,不 会 引起 任何 停顿 。 但 
如 果 两 条 指令 相关 , 则 它们 就 有 可 能 不 能 在 流水 线 中 重 释 执行 或 者 只 能 部 分 重 释 。 人 研究 
程序 中 指令 之 间 存 在 什么 样 的 相关 ,对 于 充分 发 挥 流水 线 的 效率 有 重要 的 意义 。 

相关 有 3 种 类 型 . 数据 相关 (也 称 真 数据 相关 ) 、 名 相关 ,控制 相关 。 

(1) 数据 相关 

考虑 两 条 指令 i 和 j,i 在 /7 的 前 面 ( 下 同 ) ,如 果 下 述 条 件 之 一 成 立 , 则 称 指令 j 与 指 
令 i 数据 相关 。 

Q 指令 7 使 用 指令 i 产生 的 结果 ; 

@ 指令 j 与 指令 & 数据 相关 ,而 指令 又 与 指令 i 数据 相关 。 

其 中 第 二 个 条 件 表明 ,数据 相关 具有 传递 性 。 两 条 指令 之 间 如 果 存 在 第 一 个 条 件 所 
指出 的 相关 的 链 , 则 它们 是 数据 相关 的 。 数 据 相 关 反 映 了 数据 的 流动 关系 , 即 如 何 从 其 产 
生 者 流动 到 其 消费 者 。 

例如 ,下 面 这 一 段 代 码 存 在 数据 相关 。 


Loop:  L.D F0, 0 (R2) 1/F0 为 数组 元 素 
ADD.D F4，F0，F2 /加 上 FEF2 中 的 值 
S.D F4，0 (R2) / 保存 结果 


DADDIU R2，R2，-8 /数组 指针 递减 8 个 字 币 


BNE R2，R1，Loop 。// 如果 R2 隆 Rl1， 则 分 文 


其 中 入 涉 表 示 必 须 保证 的 执行 顺序 , 它 由 产生 数据 的 指令 指 癌 使 用 该 数据 的 指令 。 

当 数 据 的 流动 经 过 寄存 占 时 ,相关 的 检测 比较 直观 和 容易 ,因为 寄存 右 是 统一 命名 
的 ,同一 寄存 硕 在 所 有 指令 中 的 名 称 都 是 唯一 的 。 而 当 数 据 的 流动 经 过 存储 天 时 ,检测 就 
比较 复杂 了 ,因为 形式 上 相同 的 地 址 其 有 效 地 址 未 必 相 同 ,如 某 条 指令 中 的 10(R5) 与 必 
一 条 指令 中 的 10(R5) 可 能 是 不 同 的 (R5 的 内 容 可 能 发 生 了 变化 ); 而 形式 不 同 的 地 址 其 
有 将 地 址 却 可 能 相同 。 

(2) 名 相关 

这 里 的 名 是 指 指令 所 访问 的 寄存 天 或 存储 送 单 元 的 名 称 。 如 果 两 条 指令 使 用 了 相同 
的 名 ,但 是 它们 之 间 并 没有 数据 流动 , 则 称 这 两 条 指令 存在 名 相关 。 指 令 j 与 指令 ; 之 间 
的 名 相关 有 以 下 两 种 。 
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Q 反 相 关 。 如 果 指 令 j 所 写 的 名 与 指令 i 所 读 的 名 相同 , 则 称 指令 i 和 j 发 生 了 反 
相关 。 反 相关 指令 之 间 的 执行 顺序 是 必 须 严 格 休 守 的 ,以 保证 i 读 的 值 是 正确 的 。 

输出 相关 。 如 果 指 令 7 和 指令 i 所 写 的 名 相同 , 则 称 指 令 i 和 j 发 生 了 输出 相关 。 
输出 相关 指令 的 执行 顺 厅 是 不 能 题 倒 的 ,以 保证 最 后 的 结果 是 指令 7 写 进去 的 。 

与 真 数 据 相 关 不 同 ,名 相关 的 两 条 指令 之 间 并 没有 数据 的 传送 ,只 是 使 用 了 相同 的 名 
而 已 。 如 果 把 其 中 一 条 指令 所 使 用 的 名 换 成 别 的 ,并 不 影响 男 外 一 条 指令 的 正确 执行 。 
因此 可 以 通过 改变 指令 中 操作 数 的 名 来 消除 名 相关 ,这 怠 是 换 名 技术 。 对 奇 存 甫 操作 数 
进行 换 名 称 为 寄存 器 换 名 。 寄 存 需 换 名 既 可 以 用 编译 套 静 态 实 现 , 也 可 以 用 硬件 动态 
二 人 

例如 ,考虑 下 述 代码 ，; 

DIV.D ~ F2,F8,F4 


ADD.D F8,F0, F12 
SUB.D  F10,F8,F14 


DIV.D 和 ADD.D 存 在 反 相 关 。 进 行 寄 人 存 融 换 名 , 即 把 后 面 的 两 个 F8 换 成 S 后 ， 


DIV.D FEF2,，P8,E4 
RDD.D 5S,F0,F12 
SUB.D FE10,S,EF14 


这 就 消除 了 原 代 码 中 的 反 相 关 。 

(3) 控制 相关 

控制 相关 是 指 由 分 文 指令 引起 的 相关 。 ne 让 来 来 确定 后 面 
该 执行 哪个 分 文 上 的 指令 。 一 般 来 说 ,为 了 保证 程序 应 有 的 执行 顺序 ,必须 严格 按照 控制 
相关 确定 的 顺序 执行 。 


2. 流水 线 冲 突 


流水 线 冲 突 是 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 ,使 得 指令 流 中 的 下 一 条 指 
令 不 能 在 指定 的 时 钟 周 期 开始 执行 。 

流水 线 冲 突 有 以 下 3 种 类 型 ， 

JU 结构 冲突 : 因 人 硬件 资 源 满足 不 了 指令 里 营 执 行 的 妥 求 而 发 生 的 溃 突 。 

( 数据 冲突 ; 当 指 令 在 流水 线 中 重合 执行 时 , 因 和 需要 用 到 前 面 指令 的 执行 结果 而 发 
生 的 冲突 。 

3 控制 冲突 ; 流水 线 遇 到 分 文 指令 或 其 他 会 改变 PC 值 的 指令 所 引起 的 冲突 。 

在 设计 流水 线 时 ,需要 很 好 地 解决 冲突 问题 。 否 则 ,就 可 能 有 影响 流水 线 的 性 能 甚至 叶 
opt dle 本。 ee 往往 需要 使 基 些 指 令 推 后 执行 ,从 而 使 流水 线 出 现 停 

phere 当 一 条 指令 被 暂 仿 时 ,在 该 暂 仿 指令 之 后 流出 的 所 有 指 
令 都 要 被 暂停 ,而 在 该 暂停 指令 之 前 流出 的 指令 则 继续 进行 。 显 然 , 在 整个 暂停 期 间 , 流 
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水 线 不 会 启动 新 的 指令 。 

(1) 结构 冲突 

在 流水 线 处 理 机 中 ,如 果 某 种 指令 组 合 因 为 资源 冲突 而 不 能 正常 执行 , 则 称 该 处 理 机 
有 结构 冲突 。 为 了 能 够 使 各 种 组 合 的 指令 都 能 顺利 地 重 全 执行 ,需要 对 功能 部 件 进 行 全 
流水 处 理 或 重复 设置 足够 多 的 资源 。 

下 面 以 访 存 冲突 为 例 来 说 明 结 构 冲 突 及 其 解决 办 法 。 有 些 流 水 线 处 理 机 只 有 一 个 存 
储 右 ,数据 和 指令 都 存放 在 这 个 存储 器 中 。 在 这 种 情况 下 , 当 执 行 load 指令 需要 访 存 取 
数 时 , 奇 义 要 同时 完成 其 后 某 条 指令 的 “ 取 指 令 ”, 那 么 就 会 发 生 访 存 冲突 ,如 图 2. 2 中 和 带 
阴影 的 M 所 示 。 为 了 消除 这 个 结构 冲突 ,可 以 在 前 一 条 指令 访问 存储 器 时 ,将 流水 线 停 
层 i 推迟 后 面 取 指令 的 操作 ,如 图 2. 3 所 示 。 该 停顿 周期 往往 被 称 为 “流水 

间 | 


on Ellie 人 jim ma my 


指令 计 1 Eli 3 


指令 计 2 Eli Ree le ja Reg 
in [aH pene 
Re EC 


图 2.2 由 于 访问 同一 个 存储 融 而 引起 的 结构 冲突 


可 以 看 出 ,为 消除 结构 冲突 而 引入 的 集 顿 将 影响 流水 线 的 性 能 。 由 于 这 种 冲突 出 现 
的 频 度 不 低 , 因 此 一 般 是 采用 分 别 设置 独立 的 指令 存储 冀 和 数据 存储 盘 方 法 ,或 者 仍 只 设 
置 一 个 存储 融 ,但 采用 两 个 分 离 的 Cache: 指令 Cache、 数 据 Cache。 

(2) 数据 冲突 

J 数据 冲突 

当 相 关 的 指令 彼此 菲 得 足够 近 时 ,它们 在 流水 线 中 的 重合 执行 或 者 重新 排序 会 改变 
指令 庶 / 写 操作 数 的 顺序 ,使 之 不 同 于 它们 串 行 执行 时 的 顺序 ,这 驶 是 发 生 了 数据 冲突 。 
考虑 以 下 指令 在 流水 线 中 的 执行 情况 。 

DADD R]l, R2, R3 

DSUB =R4, RI, 8B5 


XOR R6 ， R1, R7 
AND R8, R1, R9 
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间 (时 钟 周 所 


“1 
load “Ee = lie = Reg | 


i Be ee 


指令 i+3 Eli a EE CH 


图 2. 3 为 消除 结构 冲突 而 插入 的 流水 线 气泡 


DADD 指令 后 的 所 有 指令 都 要 用 到 DADD 指令 的 计算 结果 ,如 图 2.4 所 示 。DADD 
指令 在 其 WB 段 (第 5 个 时 钟 周 期 ) 才 将 计算 绪 订 写 人 寄存 希 R1,; 但 是 DSUB 指令 在 其 
ID 段 (第 3 个 时 钟 周期 ) 就 要 从 寄存 希 人 1 读 取 该 结果 ,这 就 是 一 个 数据 冲突 。 奢 不 采取 
指 施 防止 这 一 情况 发 生 , 则 DSUB 指令 读 到 的 值 就 是 错误 的 。XOR 指令 也 受到 这 种 冲 
突 的 影 呈 , 它 在 第 4 个 时 钟 周 期 从 R1 读 出 的 值 也 是 错误 的 。 而 AND 指令 则 可 以 正常 执 
行 , 这 是 因为 它 是 在 第 5 个 时 钟 周期 的 后 半 拍 才 从 寄存 冀 读 数据 ,而 DADD 指令 在 第 5 
个 时 钟 周 期 的 前 半 拍 已 将 结果 写 入 寄存 颖 。 

时 间 (时钟 周期 ) 


2 3 4 5 6 


DSUB R4, Rl, RS 


lk 
XOR R6, R1, R7 l | Reg oe | | 
AND R8，R1，R9 | Reg 上 全 


图 2.4 流水 线 的 数据 冲突 举例 
按照 指令 读 访问 和 写 访问 的 先后 顺序 ,可 以 将 数据 冲突 分 为 3 种 类 型 。 习惯 上 ,这 些 


冲突 是 按照 流水 线 必须 保持 的 访问 顺序 来 命名 的 。 考 虑 两 条 指令 i 和 j, 且 i 在 j 之 前 进 
入 流水 线 ,可 能 发 生 的 数据 冲突 有 以 下 几 种 。 
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4 写 后 读 冲 突 (RAW): 指令 ; 用 到 指令 i 的 计算 结果 ,而 且 在 ;将 结果 写 人 寄存 器 
之 前 就 去 该 该 寄存 硕 , 因 而 得 到 的 是 旧 值 。 这 是 最 篆 见 的 一 种 数据 冲突 , 它 对 应 
于 真 数据 相关 。 图 2.4 中 的 数据 冲突 部 是 写 后 读 冲 突 。 
4 写 后 写 冲 突 (WAW): 指令 7 和 指令 i 的 结果 寄存 带 相 同 ,而 且 j 在 i 写 人 之 前 就 
先 对 该 寄存 器 进行 了 写 和 操作 ,从 而 导致 写 和 人 顺序 错误 。 最 后 在 结果 寄存 器 中 留 
下 的 是 i 写 入 的 值 ,而 不 是 j7 写 入 的 。 这 种 冲突 对 应 于 输出 相关 。 
写 后 写 冲 突 仅 发 生 在 这 样 的 流水 线 中 : (a) 流 水 线 中 不 只 一 个 段 可 以 进行 写 操作 ，; 
(b) 指 令 被 重新 排序 了 。 前 面 介绍 的 5 段 流 水 线 由 于 只 在 WB 段 写 寄 存 大 ,所 以 不 会 发 
生 写 后 写 冲 突 。 
4 读 后 写 冲突 (WAR): 指令 j 的 目的 寄存 带 和 指令 1 I 
j 在 i 读 取 该 寄存 器 之 前 就 先 对 它 进行 了 写 操 作 , 导 致 i 读 到 的 值 是 错误 的 。 这 种 
冲突 是 由 反 相 关 引 起 的 。 
读 后 与 冲突 在 前 述 5 段 流 水 线 中 不 会 发 生 , 因 为 这 种 流水 线 中 的 所 有 该 操作 (在 ID 
段 ) 都 在 写 结果 操作 (在 WB 段 ) 之 前 发 生 。 读 后 写 冲 突 仅 发 生 在 这 样 的 情况 下 : (a) 有 些 
指令 的 写 结果 操作 提前 了 ,而 且 有 些 指令 的 读 操 作 涡 后 了 ; (b) 指 令 被 重新 排序 了 。 
多 使 用 定 同 技术 减少 数据 冲突 引起 的 保 顿 
当 出 现 图 2.4 中 所 示 的 写 后 读 冲 突 时 ,为 了 保证 指令 序列 的 正确 执行 ,一 种 简单 的 处 
理 方 法 是 暂停 流水 线 中 DADD 之 后 的 所 有 指令 ,直到 DADD 指令 将 计算 结果 写 人 寄存 
需 有 1 之 后 ,再 让 DADD 之 后 的 指令 继续 执行 ,但 这 种 暂停 会 导致 性 能 下 降 。 
为 了 减少 停顿 时 间 ,可 以 采用 是 回 技 术 ( 也 称 为 劳 路 ) 来 解决 写 后 谈 冲 突 。 和 是 癌 技 术 
的 关键 思想 是 : 在 发 生 写 后 读 相 关 的 情况 下 ,在 计算 结果 尚未 出 来 之 前 ,后 面 等 待 使 用 该 
结果 的 指令 并 不 见得 是 马上 就 要 用 该 结果 。 如 果 能 够 将 该 计算 结果 从 其 产生 的 地 方 
(ALU 的 出 口 ) 直 接送 到 其 他 指令 需要 它 的 地 方 (ALU 的 人 口 ), 那 么 就 可 以 避免 停顿 。 
对 于 图 2. 4 的 情况 ,可 以 把 DADD 指令 产生 的 结果 直接 送 给 DSUB 和 XOR 指令 ,这 样 就 
能 避免 停顿 ,如 图 2.5 所 示 。 图 中 从 流水 寄存 带 到 功能 部 件 人 口 的 连 线 表示 定 回 路径 ,和 锯 
头 表 示 数 据 的 流 问 。 显 人 然 , 这 些 指 令 都 能 顺利 执行 而 不 会 导致 停顿 。 
间 I 


DADD R1, R2, R3 mle = he 加 由 Reg | 
DSUB R4，R1，R5 Ellie | Siar | Reg | 

XOR R6，R1，R7 可 | 人 l eo | 
AND R8, RI1, R9 reli a . 


图 2.5 和 采用 定 回 技术 后 的 流水 线 数据 通路 
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从 图 2.4 还 可 以 看 出 ,流水 线 中 的 指令 所 需要 的 定向 结果 可 能 不 仅仅 是 前 一 条 指令 
的 计算 结 来 ,而 且 还 有 可 能 古 前 面 与 其 不 相 仓 的 指令 的 计算 结 来 。 


2.5.3 流水 线 的 实现 


图 2.6 是 上 述 经 内 5 有 段 流 水 线 的 一 种 实现 方案 (数据 通路 )。 


EX/MEM MEM/WB 


图 2.6 MIPS 流水 线 的 数据 通路 


在 段 与 段 之 间 设 置 了 流水 寄存 器 ,流水 寄存 器 的 名 称 用 其 相 邻 的 两 个 段 的 名 称 拼 合 
而 成 。 例 如 ID 有 段 与 EX 段 之 间 的 流水 寄存 大 用 ID/EX 表示 ,其 余 类 似 。 每 个 流水 寄存 
妖 是 由 硅 干 个 子 寄存 右 构 成 的 。 用 x.y 来 命名 这 些 子 寄存 颖 ,用 x.yL sj 来 命名 其 所 包含 
的 字段 。 其 中 x 为 流水 寄存 郑 名 称 ,y 为 具体 子 寄存 器 的 名 称 ,s 为 字段 名 称 。 例 如 ， 
ID/EX. IR 表示 流水 守 存 带 ID/EX 中 的 子 寄 存 着 IR,ID/EX. IRLopj 表 示 该 子 寄存 天 的 
op 字段 。 

流水 寄存 需 的 作用 包括 

OD 将 各 段 的 工作 隔 开 ,使 得 它们 不 会 互相 干扰 。 流 水 寄存 器 是 边沿 触发 写 信 的。 

@) 保存 相应 段 的 处 理 结果 。 例 如 : EX/MEM. ALUo 保存 EX 段 ALU 的 运算 结果 ， 
MEM/WB. LMD 保存 MEM 段 从 数据 存储 善 该 出 的 数据 。 

(3) 回 后 传递 后 面 将 要 用 到 的 数据 或 者 控制 信息 。 例 如 : EX/ MEM.B 传递 ID/EX.B 的 
内 容 , 供 在 MEM 段 写 人 存储 器 时 使 用 。MEMVWB. ALUo 传递 EX/MEM. ALUo 的 内 
容 , 供 在 WB 段 写 入 寄存 颖 时 使 用 。 随 看 指令 在 流水 线 中 的 流动 ,所 有 有 用 的 数据 和 控 
制 信息 在 每 个 时 钟 周期 都 会 往 后 传递 一 步 。 当 然 , 在 传递 过 程 中 ,只 保存 后 面 需 要 用 到 的 
数据 和 信息 , 丢 径 不 再 需要 的 信息 。 

当 一 条 指令 从 ID 段 流 到 EX 段 时 ,新 的 指令 会 进入 ID 段 , 冲 掉 IF/ID 中 的 内 容 。 所 
以 指令 中 的 有 用 信息 必须 跟着 指令 流动 到 ID/EX. IR , 依 此 类 推 。 后 面 需 要 用 到 的 指令 
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信息 要 依次 往 后 传递 ,直到 MEM/WB. IR。MEM/WB. IR 中 的 目的 寄存 器 地 址 回 送 到 
通用 寄存 器 组 ,用 于 实现 将 结果 回 写 到 通用 寄存 器 组 。 

如 果 把 PC 也 看 成 是 IF 段 的 流水 寄存 颖 ,那么 每 个 段 都 有 一 个 流水 寄存 器 , 它 位 于 
该 流水 段 的 前 面 ,提供 指令 在 该 段 执行 所 需要 的 所 有 数据 和 控制 信息 。 

该 方案 中 设置 了 一 些 临时 寄存 器 ,其 作用 如 下 : 

PC 一 一 程序 计数 器 ,存放 当前 指令 的 地 址 。 

NPC 一 一 下 一 条 程序 计数 器 ,存放 下 一 条 指令 的 地 址 。 

IR 一 一 指令 寄存 天 ,存放 当前 正在 处 理 的 指令 。 

A 一 一 第 一 操作 数 寄 存 硕 ,存放 从 通用 寄存 需 组 读 出 来 的 操作 数 。 

B 一 一 第 二 操作 数 寄存 器 ,存放 从 通用 寄存 器 组 读 出 来 的 另 一 个 操作 数 。 

Imm- 一 一 存放 符号 扩展 后 的 立即 数 操作 数 。 

cond 一 一 存放 条 件 判 定 的 结果 ,为 “ 真 ” 表 示 分 文成 功 。 

ALUo 一 一 存放 ALU 的 运算 结果 。 

LMD 一 一 存放 load 指令 从 存储 器 读 出 的 数据 。 

各 段 所 进行 的 操作 如 下 。 


1， 取 指令 周期 (IF) 

IR<—Mem[ PC |] 

NPC<—PC+4 

以 PC 中 的 值 作为 地 址 从 存 情 大 中 取出 一 条 指令 , 放 人 指令 寄存 着 IR; 同时 PC 什 可 
4, 然 后 放 入 NPC。 这 时 NPC 中 的 值 为 顺序 的 下 一 条 指令 的 地 址 。 

2. 指令 译 码 / 读 寄存 器 周期 (ID) 

A<—Regs[ rs| 


B<—Regs[ rt] 
Imm<—( (IRie )“##IRie.31 ) 


对 指令 进行 译 码 ,并 以 指令 中 的 rs 和 rt 字段 ( 见 实 验 1 的 图 1. 13) 作 为 地 址 访问 通 
用 寄存 器 组 ,把 读 出 的 操作 数 分 别 放 入 A 和 B。 同 时 IR 的 低 16 位 进行 符号 位 扩展 ,然后 
存 人 Imm。 

指令 的 译 码 操作 和 读 寄存 器 操作 是 并 行进 行 的 。 之 所 以 可 以 这 样 ,是 因为 在 MIPS 
指令 格式 中 ,操作 码 字 段 以 及 rs、rt 字段 都 是 在 固定 的 位 置 ,这 种 技术 称 为 “固定 字段 详 
码 ” 技 术 。 男 外 ,由 于 立即 数 在 所 有 MIPS 指令 中 的 位 置 也 是 相同 的 ,因此 在 这 里 统一 对 
其 进行 符号 扩展 ,以 备 在 下 一 个 周期 使 用 。 

这 里 准备 的 放 在 A、B 和 Imm 中 的 数据 在 后 面 周期 中 也 许 用 不 上 ,但 也 没关系 ,并 不 
影响 程序 执行 的 正确 性 。 而 统一 这 样 处 理 , 可 以 减少 硬件 的 复杂 度 。 

对 于 分 支 指 令 , 还 要 进行 以 下 操作 : 


判断 A== 03, 夺 是 , 则 PC, NPC<—NPC + (Imm << 2); 
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为 了 实现 这 一 点 ,在 这 一 段 专门 设置 了 一 个 加 法 器 ,用 于 转移 目标 地 址 计算 。 
Imm 之 所 以 需要 左 移 两 位 ,是 因为 它 给 出 的 值 是 以 字 为 单位 的 ,而 PC 和 NPC 中 的 
值 却 是 以 字 节 为 单位 的 。 


3. 执行 /有 效 地 址 计算 周期 (EX) 


在 这 个 周期 ,ALU 对 在 前 一 个 周期 准备 好 的 操作 数 进 行 运算 ,不 同 指令 所 进行 的 操 
作 不 同 。 
(1) load 指令 和 store 指令 


ALUo<—A + Imm 


ALU 将 操作 数 相 加 形成 有 效 地 址 ,并存 人 临时 寄存 硕 ALUo。 
(2) 寄存 硕 一 奇 存 闫 ALU 指令 


ALUo—A funct B 


ALU 根据 funct 字段 ( 见 实验 1 的 图 1.13) 指 出 的 操作 类 型 对 A 和 B 中 的 数据 进行 
运算 ,并 将 结果 存 人 ALUo。 
(3) 寄存 器 一 立即 数 ALU 指令 


ALUo=—BA op Imm 


ALU 根据 操作 码 op 指出 的 操作 类 型 对 A 和 Imm 中 的 数据 进行 运算 ,并 将 结果 和 存 
人 ALUo。 


4. 存储 器 访问 (MEM) 


在 该 周期 处 理 的 指令 只 有 load 和 store 指令 。 
load 指令 : LMD<—Mem| ALUo | 
即 从 存储 冀 中 读 出 相应 的 数据 , 放 入 临时 寄存 LMD; 
store 指令 , Mem| ALUo |<B 
即将 B 中 的 数据 与 入 存储 盘 。 
两 种 情况 下 均 用 ALUo 中 的 值 作为 访 存 地 址 ,人 它 在 上 一 个 周期 就 已 经 计算 好 了 了 。 


5. 写 回 周期 (WB) 


把 在 前 面 4 个 周期 中 得 到 的 结果 写 入 通用 寄存 器 组 。 

(1) 寄存 页 一 寄存 衣 ALU 指令 : Regs[lrd|<ALUo 

(2) 寄存 页 一 立即 数 ALU 指令 : Regsl rt 一 ALUo 

(3) load 指令 : Regsl rt 二 LMD 

这 个 结果 可 能 是 ALU 的 计算 结果 (ALUo 中 的 内 容 ), 也 可 能 是 从 存储 器 读 出 的 数 
据 (LMD 中 的 内 容 )。 写 入 的 寄存 器 地 址 由 指令 中 的 rd 或 rt 字段 指出 ,具体 是 哪 一 个 ， 
由 指令 的 操作 人 码 决 定 。 

为 了 详细 了 解 该 流水 线 的 工作 情况 ,需要 知道 各 种 指令 在 每 一 个 流水 段 进行 什么 样 
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的 操作 ,如 表 2.1 所 示 。 在 IF 段 和 ID 段 ,所 有 指令 的 操作 都 一 样 ,从 EX 段 开始 才 区 分 
不 同 的 指令 。 表 中 IRLrs] 是 指 IR 的 第 6 位 到 第 10 位 , 即 了 Rio; IRLrtj 是 指 IR as 
IR| rdj 是 指 1 R16..20 o 


表 2.1 MIPS 流水 线 的 每 个 流水 段 的 操作 


流水 段 所 有 指令 
IF/ID. IR<— Mem| PC | ; 
IF IF/ID. NPC,PC<—(if ((IF/IDLop|= = branch) & (RegsLIF/ID. IRLrs||= =0)) 
{IF/ID. NPC+T (F/ID. IR1e )™ ## (TF/ID. IR 3 ==2)} else (PC 十 4)》 7 
ID/EX. A<—Regs| IF/ID. IR| rs||; ID/EX.B <—Regsl IF/ID. IR| rt||; 
1D ID/EX. IR<—IF/1D. IR; 
ID/EX. Imm<— (IF/ID. IR )™ ## IF/ID. IRie a1; 

i 5 和 
EX/MEM. IR<—ID/EX. IR:; EX/MEM. IR<ID/EX. IR; 
EX/MEM. ALUo— EX/MEM. IR—ID/EX. IR; | EX/MEM. ALUo— 
ID/EX. A funct ID/EX.B EX/MEM. ALUo<— ID/EX. NPC+T ID/EX. 
或 ID/EX. A ID/EX. Imm:; Imm<=<=2,， 

EX/MEM. ALUo— EX/MEM. BID/EX. B; EX/ MEM. cond<— 
ID/EX. A op ID/EX. Imm:; (ID/EX. A= =0); 
MEM/ WEB. IR<—EX/ MEM. IR; 


z z MEM/WB. LMD<— 
MEM/ WB. IR<—EX/ MEM. IR; 


MEM MEM/WB. ALUo 一 
EX/MEM. ALUo; 


EX 


Mem[ EX/ MEM. ALUo]; 
或 


Mem| EX/MEM. ALUo | 
EX/MEM. B; 
Regs| MEM/WB. IRLrd | |— 


MEM/WB. ALUo; z 
RegsL MEM/WB. IRL rt | | 


WB 或 
MEM/ WB. LMD; 
RegsL MEM/WB. IRLrt| | 二 


MEM/WB. ALUo:; 


实验 3 ”指令 调度 和 延迟 分 支 


3.1 实验 目的 


(1) 加 次 对 指令 调度 技术 的 理解 。 

(2) 加 深 对 延 到 分 文 技术 的 理解 。 

(3) 熟练 掌握 用 指令 调度 技术 来 解决 流水 线 中 的 数据 冲突 的 方法 。 
(4) 进一步 理解 指令 调度 技术 对 CPU 性 能 的 改进 。 

(5) 进一步 理解 延迟 分 支 技 术 对 CPU 性 能 的 改进 。 


3.2 实验 平台 


实验 平台 采用 指令 级 和 流水 线 操 作 级 模拟 硕 MIPSsim 。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 ; Arch365 

请 扫 摘 以 下 二 维 码 , 单 击 关注 后 , 按 提示 操作 。 


口 EREd 口 
a ne 


3.3 实验 内 容 和 步骤 


首先 要 掌握 MIPSsim 模拟 大 的 使 用 方法 ( 见 1.4 市 )。 

(1) 启动 MIPSsim。 

(2) 根据 2.5 市 的 相关 知识 中 关于 流水 线 各 段 操 作 的 摘 述 ,进一步 理解 流水 线 窗口 
中 各 段 的 功能 , 苞 握 各 流水 寄存 器 的 含义 (双击 各 段 , 就 可 以 看 到 各 流水 寄存 颖 的 内 容 )。 
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(3) 选择 “配置 ?一 "流水 方式 ?选项 ,使 模拟 需 工 作 于 流水 方式 下 。 

(4) 用 指令 调度 拉 术 解决 流水 线 中 的 结构 冲突 与 数据 冲突 。 

Q) 启动 MIPSsim 。 

GO 选择 MIPSsim 的 “文件 ”一 “ 载 和 程序 ”选项 来 加 载 schedule. asm( 在 模拟 器 所 在 
文件 夹 下 的 “ 样 例 程序 ”文件 夹 中 )。 

(3) 关闭 定 同 功能 。 这 是 通过 在 “配置 ”菜单 中 关闭 “ 定 癌 ”( 使 该 项 前 面 没 有 ~ 号) 来 
实现 的 。 

9 执行 所 载 人 的 程序 。 通 过 查看 统计 数据 和 时 钟 周期 图 , 找 出 并 记录 程序 执行 过 程 
中 各 种 冲突 发 生 的 次 数 、 发 生 冲 突 的 指令 组 合 , 以 及 程序 执行 的 总 时 钟 周 期 效 。 

G) 采用 指令 调度 技术 对 程序 进行 指令 调度 ,消除 冲突 。 将 调度 后 的 程序 保存 到 
after-schedule. asm 中 。 

(06) 载 人 after-schedule. asm 。 

QD 执行 该 程序 ,观察 程序 在 流水 线 中 的 执行 情况 ,记录 程序 执行 的 总 时 钟 周期 数 。 

(8 根据 记录 绪 朱 ,比较 调度 前 和 调度 后 的 性 能 。 论 述 指 令 调 度 对 于 提高 CPU 性 能 
的 作用 。 

(5) 用 延迟 分 文 减 少 分 文 指 令 对 性 能 的 影 啊 。 

J 启动 MIPSsim。 

GO 载 人 branch. asm 。 

G) 关闭 延迟 分 文 功 能 。 这 是 通过 选择 "配置 "一 “延迟 槽 ?选项 来 实现 的 。 

由 执行 该 和 程序。 观察 并 记录 发 生 分 文 延迟 的 时 刻 。 

外 记录 执行 该 程序 所 花 的 总 时 钟 周期 数 。 

(@@ 假设 延迟 模 为 一 个 ,对 branch. asm 进行 指令 调度 ,然后 保存 到 delayed-branch. 
asm 中 。 

OD 载 人 delayed-branch. asm 。 

(8 打开 延 氏 分 文 功能 。 

@ 执行 该 程序 ,观察 其 时 钟 周 期 图 。 

Q0 记录 执行 该 程序 所 花 的 总 时 钟 周期 数 。 

d 对 比 上 述 两 种 情况 下 的 时 钟 周期 图 。 

归 根据 记录 结果 ,比较 没 及 用 延迟 分 文 和 米 用 了 延迟 分 文 的 性 能 ,论述 延迟 分 文 对 
于 提高 CPU 性 能 的 作用 。 


3.4 MIPSsim 使 用 手册 


见 实 验 1 的 1.4 节 。 
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3.5 相关 知识 : 指令 调度 和 延迟 分 文 
3.5.1 指令 调度 


为 了 减少 停顿 ,对 于 无 法 用 定 问 技术 解决 的 数据 冲突 ,可 以 通过 在 编译 时 让 编译 器 重 
新 组 织 指 令 顺 友 来 消除 冲突 ,这 种 技术 称 为 “指令 调度 ”或 “流水 线 调 度 ”。 实 际 上 ,对 于 各 
种 冲突 ,都 有 可 能 用 指令 调度 来 解决 。 

下 面 通过 一 个 例子 来 进一步 说 明 。 考 虑 以 下 表达 式 : 

A 王 B 二 CI; 

D=E—F:; 

表 3. 1 左边 是 这 两 个 表达 式 编 译 后 所 形成 的 代码 。 在 这 个 代码 序列 中 ,DADD Ra， 
Rb,Re 与 LD Re,C 之 间 存 在 数据 冲突 ,DSUB Rd,Re,Rf 与 LD Rf,F 之 间 也 是 如 此 。 为 
了 保证 流水 线 能 正确 执行 调度 前 的 指令 序列 ,必须 在 指令 的 执行 过 程 中 插入 两 个 停顿 周 
期 (分 别 在 DADD 和 DSUB 执行 前 )。 而 在 调度 后 的 指令 序列 中 ,加 大 了 DADD 和 
DSUB 指令 与 LD 指令 的 距离 。 通 过 采用 定 同 ,可 以 消除 数据 冲突 ,因而 不 必 在 执行 过 程 
中 插入 任何 停顿 周期 。 

表 3.1 调度 前 后 的 指令 序列 


调度 前 的 代码 调度 后 的 代码 
LD Rb,B LD Rb,B 
LD Re;sC LD Re,C 
DADD Ra,Rb,Rc LD Re,E 
SD Ra,A DADD Ra, Rb,Rc 
LD Re,E LD Rf{,F 
LD Rf,F SD Ra,A 
DSUB Rd, Re, Rf DSUB Rd, Re, RI 
SD Rd,D SD Rd,D 


3.5.2 延迟 分 支 


在 流水 线 中 ,控制 冲突 可 能 会 比 数据 冲突 造成 更 多 的 性 能 损失 ,所 以 同样 再 要 得 到 很 
好 的 处 理 。 执 行 分 支 指 令 的 结 末 有 两 种 ; 一 种 是 分 文 “ 成 功 ”,PC 值 改 变 为 分 文 苇 移 的 目 
标 地 址 ; 为 一 种 则 是 “不 成 功 ” 或 者 “失败 ”, 这 时 PC 的 仁 你 持 正 常 北 增 , 指 癌 顺 序 的 下 一 
条 指令 。 对 分 支 指令 “成 功 ” 的 情况 来 说 ,是 在 条 件 判定 和 转移 地 址 计算 都 完成 后 , 才 改 变 
PC 值 。 

处 理 分 支 指 令 最 简单 的 方法 是 “冻结 "或者" 排 空 ”流水 线 。 即 一 旦 在 流水 线 的 译 码 段 
ID 检测 到 分 支 指令 ,就 暂 集 其 后 的 所 有 指令 的 执行 , 卫 到 分 文 指 令 到 达 MEM 段 、 确 定 出 
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是 否 成 功 并 计算 出 新 的 PC 值 为 止 。 然 后 ,按照 新 的 PC 值 取 指令 。 如 图 3.1 所 示 , 这 种 
方法 的 优点 在 于 其 简单 性 , 它 给 流水 线 带 来 了 3 个 时 钟 周 期 的 延迟 ( 称 为 分 支 延 迟 )，。 


me mw | | | | 
EI 


xammer | | | | | De ev ws 
oxamwet| | | | | | |w|w|e lvew 


图 3.1 简单 处 理 分 支 指令 : 分 支 成 功 的 情况 


为 了 减少 分 支 延 迟 ,可 以 采用 延迟 分 支 技术 。 这 种 技术 的 主要 思想 是 从 多 辑 上 “ 延 
长 "分 支 指令 的 执行 时 间 ,把 延迟 分 支 看 成 是 由 原来 的 分 支 指令 和 若干 个 延迟 槽 构成 。 不 
管 分 支 是 否 成 功 ,都 要 按 顺序 执行 延迟 槽 中 的 指令 。 在 采用 延迟 分 支 的 实际 计算 机 中 , 绝 
大 多 数 的 延迟 槽 都 是 一 个 。MIPSsim 模拟 器 的 也 是 按 这 样 处 理 的 , 即 ， 

分 支 指令 

后 继 指 令 

在 这 种 情况 下 ,流水 线 的 执行 情况 如 图 3. 2 所 示 。 可 以 看 出 ,只 要 分 支 延 迟 槽 中 的 指 
仿 是 有 用 的 ,流水 线 中 就 没有 出 现 停顿 ,这 时 延迟 分 支 的 方法 能 很 好 地 减少 分 支 延迟 。 


分 支 指 人 Ai | 下 |ID|EX MEMWB| | | | 
分 支 | 延迟 模 指 令 i+1 | | 下 | ID |EIMEMWB| | | | 
失败 | 指 Sit2 | | JF DIEX MMVW| | | 

指 人 if3 | | | |JF|D|ExX|IMEMWwB| | 


延迟 档 指 令 i+1 | | 下 | ID | FEXIMEMWB| | | | 
成 功 | 分 支 目标 指令 | |， | DEX MEMVWB, |) |) 
分 支 目标 指令 j+1 | | | |F|D|EXIMEM VE| | | 


图 3.2 延迟 分 支 的 执行 情况 


:ett 
分 支 


放 人 延迟 槽 中 的 指令 是 由 编译 需 来 选择 的 。 实 际 上 延 色 分 文 能 否 带 来 好 处 完全 取决 
于 编译 需 能 否 把 有 用 的 指令 调度 到 延迟 槽 中 ,这 也 是 一 种 指令 调度 技术 。 第 用 的 调度 方 
法 有 3 种 : 从 前 调度 、 从 目标 处 调度 、 从 失败 处 调度 。 如 图 3.3 所 示 , 上 面 的 代码 是 调度 
前 的 ,下 面 的 代码 是 调度 后 的 。 

图 3. 3(a) 表 示 的 是 从 前 调度 , 它 是 把 位 于 分 文 指 令 之 前 的 一 条 独立 的 指令 移 到 延迟 
槽 。 当 无 法 采用 从 前 调度 时 ,就 采用 另外 两 种 方法 。 图 3.3(b) 表 示 的 是 从 目标 处 调度 ， 
它 是 把 目标 处 的 指令 拷贝 到 延 民 权 。 同 时 ,还 要 修改 分 支 指 令 的 目标 地 址 ,如 图 3. 3(b) 
中 的 箭头 所 示 。 之 所 以 是 拷贝 到 延迟 权 ,而 不 是 把 该 指令 移 过 去 ,是 因为 从 别 的 路 径 可 能 
也 要 执行 到 该 指令 ,从 目标 处 调度 实际 上 是 猜测 了 分 文 是 成 功 的 。 所 以 当 分 文成 功 概率 
比较 高 时 (例如 循环 转移 ), 采 用 这 种 方法 比较 好 ; 否则 ,采用 从 失败 处 调度 比较 好 ( 见 
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图 3. 3(c) ) 。 需 要 注意 的 是 , 当 猜 测 错误 时 ,要 保证 图 3.3(b) 和 图 3. 3(c) 中 调度 到 延 返 
权 中 的 指令 的 执行 不 会 影响 程序 的 正确 性 (当然 ,这 时 延迟 权 中 的 指令 是 无 用 的 )。 在 
图 3. 3(b) 和 图 3. 3(c) 的 指令 序列 中 ,由 于 分 六 指令 是 使 用 Rl 来 判断 的 ,所 以 不 能 把 产 
生 R1 的 值 的 DADD 指令 调度 到 延迟 模 。 


DADD R1, R2, R3 DSUB R414, RS, Re DADD R1, R2, R3 


if R2=0 then if R1=0 then 


DADD RI1, R2, R3 
延 壕 模 if R1=0 then 


延 夫 可 


DSUB R4, R3, RO DADD R1, R2, R3 


if R2=0 then : if R1=0 then 
DADD R1. R2. R3 DADD RI1, R2, R3 : 
DSUB R4, RS, RG 


if R1=0 then 
(a) 从 二 调度 (b) 从 目标 处 调度 (c) 从 失败 处 调度 
图 3.3 调度 分 支 指令 的 3 种 常用 方法 


实验 4 ”Cache 性 能 分 析 


4.1 实验 目的 


(1) 加 次 对 Cache 的 基本 概念 ,基本 组 织 结构 ,以 及 基本 工作 原理 的 理解 。 
(2) 和 擎 握 Cache 容量 、 相 联 度 、 块 大 小 对 Cache 性 能 的 影响 。 

(3) 掌握 降低 Cache 不 命中 率 的 各 种 方法 以 及 这 些 方法 对 提高 Cache 性 能 的 好 处 。 
(4) 理解 LRU 与 随机 法 的 基本 思想 以 及 它们 对 Cache 性 能 的 影响 。 


4.2 实验 平台 


实验 平台 采用 Cache 模拟 硕 MyCache。 

设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 : Arch365 

请 扫 朱 以 下 二 维 码 , 单 击 关 注 后 , 按 提示 操作 。 


OP IO 


4.3 实验 内 容 和 步骤 
首先 要 掌握 MyCache 模拟 需 的 使 用 方法 ( 见 4.4 节 )。 


4.3.1 Cache 容量 对 不 命中 率 的 影响 


(1) 启动 MyCache。 
(2) 单 击 “ 复 位 ”按钮 ,把 各 参数 设置 为 默认 值 。 
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(3) 选择 一 个 地 址 流 文件 。 方 法 : 选择 "访问 地 址 ?一 “地 址 流 文件 ?选项 ,然后 单 击 
“浏览 ?按钮 ,从 本 模拟 需 所 在 的 文件 夹 下 的 “地 址 流 ” 文 件 夹 中 选取 。 

(4) 选择 不 同 的 Cache 容量 ,包括 2KB、4KB、8KB、16KB、32KB、64KB、128KB、 
256KB ,分别 执行 模拟 部 ( 单 击 “* 执 行 到 底 ” 按 钮 即 可 执行 ), 然 后 在 表 4. 1 中 记录 各 种 情况 
下 的 不 命中 率 。 


表 4.1 不 同 容量 下 Cache 的 不 命中 率 


Cache 容量 
ache 容量 256 
(KB) 


地 址 流 文 件 名 : 
(5) 以 容量 为 横 坐 标 , 画 出 不 命中 率 随 Cache 容量 变化 而 变化 的 曲线 ,并 指明 地 址 流 
(6) 根据 该 模拟 结 来 ,你 能 得 出 什么 结论 ? 


4.3.2 相 联 度 对 不 命中 率 的 影响 


(1) 单 击 "复位 "按钮 ,把 各 参数 设置 为 默认 值 。 此 时 的 Cache 容量 为 64KB。 

(2) 选择 一 个 地 址 流 文件 。 方法: 选择 “访问 地 址 >“ 地 址 流 文件 ”选项 ,然后 单 击 
“浏览 "按钮 ,从 本 模拟 硕 所 在 的 文件 夹 下 的 "地址 流 ? 文 件 夹 中 选取 。 

(3) 选择 不 同 的 Cache 相 联 度 ,包括 直接 映 复 .2 路 4 路 .8 路 16 路 32 路 ,分 别 执行 
模拟 硕 ( 单 击 " 执 行 到 确 ? 按 钮 即 可 执行 ), 然 后 在 表 4.2 中 记录 各 种 情况 下 的 不 命中 率 。 


表 4.2 当 容 量 为 64KB 时 ,不 同 相 联 度 下 Cache 的 不 命中 率 


(4) 把 Cache 的 容量 设置 为 256KB, 重 复 (3) 的 工作 ,并 填写 表 4. 3 。 


表 4.3 当 容 量 为 256KB 时 ,不 同 相 联 度 下 Cache 的 不 命中 率 


地 址 流 文件 名 : 

(5) 以 相 联 度 为 横 坐 标 , 画 出 在 64KB 和 256KB 的 情况 下 不 命中 率 随 Cache 相 联 度 
变化 而 变化 的 曲线 ,并 指明 地 址 流 文件 名 。 

(6) 根据 该 模拟 结果 ,你 能 得 出 什么 结论 ? 
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4.3.3 Cache 块 大 小 对 不 命中 率 的 影响 


(1) 单 击 "复位 ?按钮 ,把 各 参数 设置 为 默认 值 。 

(2) 选择 一 个 地 址 流 文 件 。 方 法 : 选择 “访问 地 址 ”一 “地 址 流 文件 ”选项 ,然后 单 击 
“浏览 ”按钮 ,从 本 模拟 器 所 在 的 文件 夹 下 的 “地 址 流 ” 文 件 夹 中 选取 。 

(3) 选择 不 同 的 Cache 块 大 小 ,包括 16B、32B、64B、128B、256B, 对 于 Cache 的 各 种 容 
量 , 包 括 2KB、8KB、32KB、128KB、512KB, 分 别 执行 模拟 强 ( 单 击 “ 执 行 到 瓜 ” 按 钮 即 可 执 
行 ) ,然后 在 表 4.4 中 记录 各 种 情况 下 的 不 命中 率 。 

表 4.4 各 种 块 大 小 情况 下 Cache 的 不 命中 率 


Cache 容量 (KB) 


块 大 小 (B) 
128 12 
| | | | 


(4) 分 析 Cache 块 大 小 对 不 命中 人 率 的 影响 ，。 


4.3.4 ”替换 算法 对 不 命中 率 的 影响 


(1) 单 击 “复位 ”按钮 ,把 各 参数 设置 为 默认 值 。 
(2) 选择 一 个 地 址 流 文件 。 方 法 : 选择 “访问 地 址 ”一 “地 址 流 文件 ”选项 ,然后 单 击 
“浏览 ”按钮 ,从 本 模拟 器 所 在 的 文件 夹 下 的 “地 址 流 ” 文 件 夹 中 选取 。 
(3) 对 于 不 同 的 奉 换算 法 .Cache 容量 和 相 联 度 , 分 别 执 行 模拟 器 ( 单 击 “ 执 行 到 底 ” 
按钮 即 可 执行 ) ,然后 在 表 4. 5 中 记录 各 种 情况 下 的 不 命中 率 。 
表 4.5 LRU 和 随机 替换 法 的 不 命中 率 的 比较 
相 联 度 


ml | 
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地 址 流 文件 名 : 
(4) 分 析 不 同 的 替换 算法 对 Cache 不 命中 率 的 影 啊 。 


4.4 MyCache 模拟 器 使 用 方法 


(1) 司 动 醒 拟 硕 : 双击 MyCache. exe。 

(2) 系统 会 打开 一 个 操作 界面 。 该 界面 的 左边 为 设置 模拟 参数 区 域 ,右边 为 模拟 结 
果 显 示 区 域 ,如 图 4. 1 所 示 。 

(3) 可 以 设置 的 参数 包括 : 是 统一 Cache 还 是 分 离 Cache、Cache 的 容量 、 块 大 小 、 相 
联 度 . 符 换 算法 、 预 取 策 略 .与 梨 略 .与 不 命中 时 的 调 块 策 略 。 可 以 直接 从 列表 里 选择 。 

(4) 访问 地 址 可 以 选择 来 日 地 址 流 文件 ,也 可 以 选择 手动 输入 。 如 果 是 前 者 , 则 可 以 
通过 单 击 “浏览 ”按钮 ,从 模拟 帮 所 在 文件 夹 下面 的 “地 址 流 ” 文 件 夹 中 选取 地 址 流 文件 
(. din 文件 ) ,然后 进行 执行 。 执 行 的 方式 可 以 是 步 进 ,也 可 以 是 一 次 执行 到 底 。 如 果 选 
择 手动 输入 ,就 可 以 在 “执行 控制 ”区 域 中 输入 块 地 址 ,然后 单 击 “访问 ”按钮 。 系 统 会 在 界 
面 的 右边 显示 访问 类 型 .地址 、 块 号 以 及 块 内 地 址 。 

(5) 模拟 结 采 包括 、 

中 访问 总 次 数 ,总 的 不 命中 次 数 , 总 的 不 命中 率 ; 

龟 读 指 令 操作 的 次 数 , 其 不 命中 次 数 及 其 不 命中 率 ， 

(3 读数 据 操作 的 次 数 , 其 不 命中 次 数 及 其 不 命中 率 ， 

由 写 数 据 操作 的 次 数 , 其 不 命中 次 数 及 其 不 命中 率 ; 

(3 手动 输入 单 次 访问 的 相关 信息 。 


MyCache 一 Cache 模拟 器 


模拟 结果 显示 区 


执行 控制 区 


图 4.1 MyCache 模拟 器 的 操作 界面 示意 图 
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4.5 相关 知识 : Cache 的 基本 原理 


4.5.1 Cache 的 映像 规则 

当 要 把 一 个 块 从 主 存 调 入 Cache 时 ,可 以 放置 到 哪些 位 置 ? 这 就 是 映像 规则 所 要 解 
决 的 。 映 像 规 则 有 以 下 3 种 。 

1. 全 相 联 映像 


全 相 联 是 指 主 存 中 的 任 一 块 可 以 被 放置 到 Cache 中 的 任意 一 个 位 置 ,如 图 4. 2(Ca) 所 
示 。 图 中 给 出 了 主 存 的 第 9 块 可 以 放 入 的 位 置 ( 带 阴 影 部 分 )。 
主 存 块 号 主 存 块 号 


块 号 Cache 


-hn 


nO 二 Om Tn 一 


(a) 全 相 联 映像 (b) 直接 映像 
主 存 块 号 


, 0 

i 
2 
HH . 
块 号 Cache ” 
0 | a , 

. pd 
0 组 冬 7 4 
] ~ Ey 一 

2 7 
mT | 和 浊 7 了 6 
3 Wi 
4 | < 8 
24 VU 

> | Te oo 2 
6 | -Ee 10 

《4 
7 | ASaAs 1 

no ~" 
SA 但 
SS 13 
14 
]15 
(C) 组 相 联 映像 


4.2 3 种 映像 规则 
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为 简单 起 见 , 图 中 只 画 出 了 Cache 大 小 为 8 块 、 主 存 大 小 为 16 块 的 情况 。 

2. 直接 映像 

直接 映像 是 指 主 存 中 的 每 一 个 块 只 能 被 放置 到 Cache 中 唯一 的 一 个 位 置 ,如 图 4.2 (b) 
所 示 。 图 中 市 箭头 的 连 线 表 示 上 映像 关系 ,从 主 存 块 到 Cache 块 的 对 应 关系 是 依次 循环 分 
配 的 。 

图 中 市 盘 头 的 实 线 连 线 表 示 主 存 的 第 9 块 只 能 放 人 Cache 的 第 1 块 。 一 般 地 ,如 果 
主 存 的 第 i 块 ( 即 块 地 址 为 让 映像 到 的 Cache 块 的 第 7 块 , 则 . 

J]=1 modyN 

其 中 M 为 Cache 的 块 数 ， 

设 M 王 2 , 则 当 表 示 为 二 进 制 数 时 ,7 实际 上 就 是 7 的 低 m 位 ,如 图 4.3 所 示 。 

一 一 mn 位 一 一 | 

图 4.3 M= 二 2” 时 主 存 块 地 址 


因此 ,可 以 直接 用 主 存 块 地 址 的 低 mx 位 去 选择 直接 映像 Cache 中 的 块 。 
3. 组 相 联 映像 


在 组 相 联 映像 中 ,Cache 被 等 分 为 藻 干 组 ,每 组 由 符 干 个 块 构成 。 主 存 中 的 每 一 块 可 
以 被 放置 到 Cache 中 唯一 的 一 个 组 中 的 任何 一 个 位 置 。 它 是 直接 映像 和 全 相 联 映像 的 一 
种 折 中 : 一 个 主 存 块 首 先是 直接 映像 到 唯一 的 一 个 组 上 (直接 映像 的 特征 ) ,然后 这 个 块 
可 以 被 放 人 这 个 组 中 的 任何 一 个 位 置 ( 全 相 联 映像 的 特征 )。 组 的 选择 篆 采 用 位 选择 算 
法 , 即 对 于 主 存 的 第 i 块 ,车 它 所 映像 到 Cache 组 的 组 号 为 &, 则 有 : 


k=1 modo 
其 中 G 为 Cache 的 组 数 。 
设 G 二 25, 则 当 表 示 为 二 进 制 数 时 ,k 实际 上 就 是 i 的 低 g 位 ,如 图 4.4 所 示 ，。 


一 一 一 一 g 位 一 一 ”| 
图 4.4 G==25 时 主 存 块 地 址 


因此 ,可 以 直接 用 主 存 块 地 址 的 低 g 位 去 选择 Cache 中 的 相应 组 。 这 里 的 低 g 位 以 
及 上 述 和 直接 映像 中 的 低 m 位 通常 称 为 索引 。 

如 果 每 组 中 有 7 个 块 (xn 一 M/G), 则 称 该 映像 规则 为 n 路 组 相 联 。 图 4.2(c) 为 两 路 
组 相 联 映像 的 示意 图 ,这 里 的 每 个 组 由 两 块 组 成 , 主 存 第 9 块 可 以 被 放 人 Cache 第 一 组 的 
两 个 块 中 的 任何 一 个 。 

相 联 度 越 高 ( 即 的 值 越 大 ) ,Cache 空间 的 利用 率 就 越 高 , 块 冲突 概率 就 越 低 ,因而 
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Cache 的 不 命中 率 就 越 低 。 块 冲突 是 指 当 要 把 一 个 主 存 块 调 入 Cache 时 , 按 映像 规则 所 
对 应 的 Cache 块 位 置 都 已 经 被 占用 。 显 然 ,全 相 联 映像 的 不 命中 率 最 低 , 直 接 映 像 的 不 命 
中 率 最 高 。 虽 然 从 降低 不 命中 率 的 角度 来 看 ,n 的 值 越 大 越 好 ,但 在 后 面 我 们 将 看 到 , 增 
大 值 并 不 一 定 能 使 整个 计算 机 系统 的 性 能 提高 ,而 且 还 会 使 Cache 的 实现 复杂 度 和 成 
本 增加 。 因 此 , 绝 大 多 数 计算 机 都 采用 直接 映像 .两 路 组 相 联 映像 或 4 路 组 相 联 映像 。 特 
别 是 直接 映像 ,应 用 得 最 多 。 


4.5.2 查找 方法 


Cache 中 设 有 一 个 目录 表 ,每 一 个 Cache 块 在 该 表 中 都 有 唯一 的 一 项 ,用 于 指出 当前 
该 块 中 存放 的 信息 是 哪个 主 存 块 的 。 它 实际 上 是 记录 了 该 主 存 块 的 块 地 址 的 高 位 部 分 ， 


称 为 标识 。 每 个 主 存 块 能 唯一 地 由 其 标识 来 确定 ,标识 在 主 存 块 地 址 中 的 位 置 如 图 4. 5 
所 示 。 


和 
块 地 址 
图 4.5 主 存 地 址 的 分 割 


由 于 目录 表 中 存放 的 是 标识 ,所 以 存放 目录 表 的 和 存储 硕 又 称 为 标识 人 存储 艇 。 目 录 表 
中 给 每 一 项 设置 一 个 有 效 位 ,该 位 为 1 表示 Cache 中 相应 块 所 包含 的 信息 有 效 。 

根据 映像 规则 不 同 , 一 个 主 和 存 块 可 能 映像 到 Cache 中 的 一 个 或 多 个 Cache 块 位 置 。 
为 便于 讨论 ,我们 把 它们 称 为 候选 位 置 。 在 米 用 下 接 映 像 或 组 相 联 映像 的 情况 下 ,为 了 所 
高 访问 速度 ,一 般 是 把 * 主 存 一 Cache” 地 址 变换 和 访问 Cache 存储 体 安 排 成 同时 进行 。 这 
时 ,由 于 还 不 知道 哪个 候选 位 置 上 有 所 要 访问 的 数据 ,所 以 就 把 所 有 候选 位 置 中 的 相应 信 
县 都 读 出 来 ,在 “主人 存 一 Cache” 地 址 变换 完成 后 ,再 根据 其 结束 从 这 些 信息 中 选 一 个 (如 
果 命 中 的 话 ) ,发 送 给 CPU 。 

卫 接 上 映像 Cache 的 候选 位 置 最 少 , 只 有 一 个 ; 全 相 联 Cache 的 候选 位 置 最 多 ,为 M 
个 ; 而 n 路 组 相 联 则 介 于 两 者 之 间 , 为 nn 个。 实现 并 行 查找 的 方法 有 两 种 : 山 用 相 联 存储 
器 实现 ; 思 用 单 体 多 字 的 按 地 址 访问 的 存储 顺和 比较 器 来 实现 。 


4.5.3 替换 算法 


直接 映像 Cache 中 的 替换 很 简单 ,因为 只 有 一 个 块 , 别 无 选择 。 而 在 组 相 联 和 全 相 联 
Cache 中 , 则 有 多 个 块 供 选择 ,我 们 当然 希望 应 尽 可 能 避免 蔡 换 掉 马 上 就 要 用 到 的 信息 。 
主要 的 替换 算法 有 以 下 3 种 。 


1. 随机 法 
这 种 方法 随机 地 选择 被 蔡 换 的 块 。 其 优点 是 简单 ,多 于 用 人 刹 件 实现 ,但 这 种 方法 没有 
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考虑 Cache 块 过 去 被 使 用 的 情况 ,反映 不 了 程序 的 局 部 性 ,所 以 命中 率 比 较 低 。 
2. 先进 先 出 法 FIFO 


这 种 方法 选择 最 早 调 人 的 块 作为 镁 茶 换 的 块 。 其 优点 也 是 容 多 实现 。 它 虽然 利用 了 
同一 组 中 各 块 进 入 Cache 的 先后 顺序 这 一 “历史 ”信息 ,但 还 是 不 能 正确 地 反映 程序 的 局 
部 性 。 因 为 最 先进 入 的 块 ,也 可 能 是 经 党 要 用 到 的 块 。 


3. 最 近 最 少 使 用 法 LRU 


这 种 方法 本 来 是 选择 近期 使 用 次 数 最 少 的 块 作为 被 蕉 换 的 块 。 但 由 于 其 实现 比较 复 
杂 ,现在 实际 上 实现 的 LRU 都 只 是 选择 最 久 没 有 被 访问 过 的 块 ( 也 称 为 LFU 算法 )。 

LRU 能 较 好 地 反映 程序 的 局 部 性 原理 ,因而 其 命中 率 在 上 述 3 种 方法 中 是 最 高 的 。 
但 是 LRU 比较 复杂 ,人 硬件 实现 成 本 比较 高 ,特别 是 当 组 的 大 小 增加 时 ,LRU 的 实现 代价 

LRU 和 随机 法 分 别 因 其 不 命中 率 低 和 实现 简单 而 被 广泛 有 采用。 不 过 ,有 模拟 数据 表 
明 ,对 于 容量 很 大 的 Cache,LRU 和 随机 法 的 命中 率 差 别 不 大 ，。 


4.5.4 写 策 略 


按照 存储 层次 的 要 求 ,Cache 内 容 应 是 主 存 部 分 内 容 的 一 个 副本 。 但 是 “ 写 ” 访 问 
却 可 能 导致 它们 内 容 的 不 一 致 。 这 就 产生 了 Cache 与 主 存 内 容 的 一 致 性 问题 。 显 然 ， 
为 了 保证 正确 性 , 主 存 的 内 容 也 必须 更 新 。 至 于 何 时 更 新 ,这 正 是 写 策 略 所 要 解决 的 
问题 。 

写 策 略 是 区 分 不 同 Cache 设计 方案 的 一 个 重要 标志 。 写 策略 主要 有 以 下 两 种 . 

(1) 写 下 达 法 。 也 称 为 存 下 达 法 。 它 是 指 在 执行 “ 写 ” 操 作 时 ,不 仅 把 数据 写 和 人 Cache 
中 相应 的 块 ,而 且 也 写 人 下 一 级 存储 需 , 这 样 下 一 级 存储 硕 中 的 数据 都 是 最 新 的 。 

(2) 写 回 法 。 也 称 为 找 回 法 。 这 种 写生 略 只 把 数据 写 入 Cache 中 相应 的 块 ,不 写 入 
下 一 级 存储 器 。 这 样 有 些 数 据 的 最 新 版 本 是 在 Cache 中 ,这 些 最 新 数据 只 有 在 相应 的 块 
被 蔡 换 时 , 才 被 与 回 下 一 级 存储 器 。 


4.5.5 改进 Cache 性 能 


根据 平均 访 存 时 间 公 式 ，: 
平均 访 存 时 间 王 命中 时 间 十 不 命中 率 X 不 命中 开销 
可 以 从 以 下 3 个 方面 改进 Cache 的 性 能 : 
(1) 降低 不 命中 率 ; 
(2) 减少 不 命中 开销 ; 
(3) 减少 命中 时 间 。 
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4.5.6 三 种 类 型 的 不 命中 


按照 产生 不 命中 的 原因 不 同 ,可 以 把 不 命中 分 为 以 下 3 类 (人 向 称 为 3C): 

(1) 强制 性 不 命中 : 当 第 一 次 访问 一 个 块 时 ,该 块 不 在 Cache 中 , 需 从 下 一 级 存储 器 
中 调和 Cache, 这 束 是 强制 性 不 命中 。 这 种 不 命中 也 称 为 冷 局 动 不 合 中 或 首次 访问 不 命中 。 

(2) 容量 不 命中 :; 如 朱 程 序 执行 时 所 需 的 块 不 能 全 部 调和 Cache 中 , 则 当 茶 些 块 被 
符 换 后 ,和 右 又 重新 被 访问 ,就 会 发 生 不 河中 。 这 种 不 命中 称 为 容量 不 命中 。 

(3) 冲突 不 命中 : 在 组 相 联 映像 或 百 接 映像 Cache 中 , 耕 太 多 的 块 映像 到 同一 组 
( 块 ) 中 , 则 会 出 现 该 组 中 菏 个 块 锌 别 的 块 蓉 换 ,然后 又 被 重新 访问 的 情况 。 这 藉 是 发 生 了 
冲突 不 命中 ,这 种 不 命中 也 称 为 碰撞 不 命中 或 干扰 不 命中 。 

模拟 结果 表明 . 

(1) 相 联 度 越 蜗 ,冲突 失效 就 越 少 ; 

(2) 强制 性 失效 和 容量 失效 不 受 相 联 度 的 影响 ; 

(3) 强制 性 失效 不 受 Cache 容量 的 影响 ,但 容量 失效 却 随 看 容量 的 增加 而 减少 。 

在 3C 中 ,冲突 不 命中 似乎 是 最 容 多 减少 的 ,只 要 采用 全 相 联 映像 ,就 不 会 发 生 冲 突 
不 命中 。 但 是 ,用 人 硬件 实现 全 相 联 映像 是 很 郧 贯 的 ,而 且 有 可 能 会 降低 处 理 带 的 时 钟 频 
率 , 从 而 导致 整体 性 能 的 下 降 。 至 于 容量 不 命中 ,除了 增 大 Cache 以 外 ,没有 别 的 办 法 。 

太一 个 减少 3C 的 方法 是 增加 块 的 大 小 ,以 减少 强制 性 不 命中 。 


4.5.7 降低 不 售 中 率 的 方法 


降低 Cache 不 命中 率 的 方法 : 增加 Cache 块 大 小 、 提 高 相 联 度 、 增 加 Cache 容量 、 采 
用 Victim Cache、 采 用 伪 相 联 Cache、 及 用 便 件 预 取 技 术 、 采用 由 编 境 天 控制 的 预 取 和 编 
译 器 优化 。 

1. 增加 Cache 块 大 小 

降低 不 命中 率 最 简单 的 方法 是 增加 块 大 小 。 图 4.6 给 出 了 在 不 同 Cache 容量 的 情况 
下 ,不 命中 率 和 块 大 小 的 关系 。 表 4.6 列 出 了 图 4.6 的 具体 数据 。 


7 
A256K O64K ®16K ok 
不 
命 5% 上 | 上 ---------------------------------------------- 
中 
性 
涡 本 ~ 站 
0% 
16 32 64 128 256 块 大 小 (B) 


图 4.6 不 命中 率 随 块 大 小 变化 的 曲线 


实验 4 Cache 性 能 分 析 49 


表 4.6 各 种 块 大 小 情况 下 Cache 的 不 命中 率 


块 大 小 Cache 容量 (B) 


从 图 4.6 或 表 4.6 可 以 看 出 A Cache 容量 , 当 块 大 小 从 16B 开始 增加 时 ， 
不 命中 率 开 始 是 下 降 ,但 后 来 反而 上 升 了 了。 这 是 为 什么 呢 ? 原来 增加 块 大 小 会 产生 双重 
作用 : 

(1) 增强 了 空间 局 部 性 ,减少 了 强制 性 不 命中 

(2) 减少 了 Cache 中 块 的 数目 ,所 以 有 可 能 会 增加 冲突 不 命中 。 

在 块 大 小 比较 小 的 情 交 下, 上述 的 第 一 种 作用 超过 第 二 种 作用 ,从 而 使 不 命中 率 下 
降 。 但 等 到 块 大 小 较 大 时 ,第 二 种 作用 超过 了 第 一 种 作用 ,就 反而 使 不 命中 率 上 升 了 。 

Cache 容量 越 大 ,使 不 命中 率 达 到 最 低 的 块 大 小 就 越 大 。 例 如 在 本 例 中 ,对 于 大 小 分 
别 16KB、64KB 和 256KB 的 Cache, 使 不 命中 率 达 到 最 低 的 块 大 小 分 别 为 64B、128B、 
128B( 或 256B) 。 

此 外 ,增加 块 大 小 同时 也 会 增加 不 命中 开销 ,如 果 这 个 负面 效应 超过 了 不 命中 率 下 降 
所 市 来 的 好 处 ,就 会 使 平均 访 存 时 间 增 加 。 这 时 ,即使 降低 不 命中 率 也 是 得 不 偿 失 。 所 以 
选择 块 大 小 时 ,要 综合 考虑 各 方面 的 因 系 。 


2. 增加 Cache 的 容量 


降低 Cache 不 命中 率 最 耳 接 的 方法 是 增加 Cache 的 容量 。 不 过 ,这 种 方法 不 但 会 增 
加 成 本 ,而 且 还 可 能 增加 命中 时 间 , 这 种 方法 在 片 外 Cache 中 用 得 比较 多 。 


3. 提高 相 联 度 


根据 对 Cache 的 模拟 结果 ,得 出 两 条 经 验 规则 : 中 从 实际 应 用 的 角度 来 看 ,在 降低 不 
命中 率 方面 ,8 路 组 相 联 的 作用 已 经 和 全 相 联 一 样 有 效 。 也 就 是 说 ,采用 相 联 度 超过 8 的 
方案 的 实际 意义 不 大 ; 加 2 : 1 Cache 经 验 规则 : 容量 为 N 的 直接 映像 Cache 的 不 命中 
率 和 容量 为 N/2 的 两 路 组 相 联 Cache 的 不 命中 率 差 不 多 相同 。 

- 般 来 说 ,改进 平均 访 存 时 间 的 革 一 方面 是 以 损失 另 一 方面 为 代价 的 。 例 如 ,增加 块 
大 小 会 增加 不 命中 开销 ,而 提高 相 联 度 则 是 以 增加 命中 时 间 (Chitrtime) 为 代价 。 为 了 实现 
很 高 的 处 理 需 时 钟 频 率 , 需 要 设计 结构 简单 的 Cache, 但 时 钟 频 率 越 高 ,不 命中 开销 就 越 
大 (所 需 的 时 钟 周 期 数 越 多 )。 为 减少 不 命中 开销 ,又 要 求 提 高 相 联 度 。 


4. 伪 相 联 Cache 
伪 相 联 Cache 又 称 为 列 相 联 Cache。 它 既 能 获得 多 路 组 相 联 Cache 的 低 不 命中 率 ， 
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又 能 保持 和 耳 接 上 映像 Cache 的 命中 速度 。 

当 对 伪 相 联 Cache 进行 访问 时 , 衣 先 是 按 与 耳 接 映像 相同 的 方式 进行 访问 。 如 有 果 命 
中 , 则 从 相应 的 块 中 取出 所 访问 的 数据 , 送 给 CPU ,访问 结束 。 这 与 耳 接 映像 Cache 中 的 
情况 完全 相同 ; 但 如 末 是 不 命中 ,就 与 了 且 接 映像 Cache 不 同 了 , 伪 相 联 Cache 会 检查 
Cache 男 一 个 位 置 ( 块 ) ,看 是 否 匹 配 。 确 定 这 个 “ 男 一 块 ”的 一 种 简单 的 方法 是 将 索引 字 
段 的 最 高 位 取 反 ,然后 按照 新 索引 去 寻找 “ 伪 相 联 组 ”中 的 对 应 块 ,如 图 4.7 所 示 。 如 末 这 
一 块 的 标识 匹配 , 则 称 发 生 了 “ 伪 命 中 ”。 否 则 ,就 只 好 访问 下 一 级 存储 疾 。 


至 CPU 


取出 数据 送 往 CPU 


伪 相 联 组 


4.7 伪 相 联 Cache 的 示意 图 


伪 相 联 Cache 具有 一 快 一 慢 两 种 命中 时 间 , 它 们 分 别 对 应 于 正和 党 命中 和 伪 命 中 的 情 
况 。 图 4. 8 中 给 出 了 它们 的 相对 关系 。 伪 相 联 技术 在 性 能 上 存在 一 种 潜在 的 不 足 : 如 采 
耳 接 映像 Cache 里 的 许多 快速 命中 在 伪 相 联 Cache 中 变 成 慢 速 命中 ,那么 这 种 优化 措施 
反而 会 降低 整体 性 能 。 所 以 ,要 能 够 指出 在 同一 组 的 两 个 块 中 访问 哪个 块 才 更 可 能 是 快 
速 全 中。 一 种 简单 的 解决 方法 是 : 当 出 现 伪 命中 时 ,交换 两 个 块 的 内 容 , 把 最 近 刚 访问 过 
的 块 放 到 第 一 位 置 ( 即 按 和 直接 上 映 象 所 对 应 的 块 ) 上。 这 是 因为 根据 局 部 性 原理 , 刚 访 问 过 
的 块 很 可 能 就 是 下 一 次 要 访问 的 块 。 

正 前 命中 时 间 


| 伪 命 中 时 间 | 不 命中 开销 | 


人 
| 时 间 
图 4.8 正常 命中 时 间 , 伪 命中 时 间 和 不 命中 开销 之 间 的 关系 
尽管 从 理论 上 来 说 , 伪 相 联 是 一 种 很 有 了 吸 引力 的 方法 ,但 它 的 多 种 命中 时 间 会 使 
CPU 流水 线 的 设计 复杂 化 。 因 此 伪 相 联 技 术 往 往 是 应 用 在 离 处 理 硕 比较 远 的 Cache 上 ， 
例如 第 二 级 Cache。 
5. 硬件 预 取 


指令 和 数据 都 可 以 在 处 理 右 提出 访问 请 求 之 前 进行 预 取 。 预 取 内 容 可 以 直接 放 人 
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Cache, 也 可 以 放 在 一 个 访问 速度 比 主 存 快 的 外 部 缓冲 更 中 。 

指令 预 取 通 常 由 Cache 之 外 的 硬件 完成 。 例 如 ,Alpha AXP 21064 微 处 理 带 在 上 发生 
指令 不 命中 时 取 两 个 块 : 被 请 求 指令 块 和 顺序 的 下 一 指令 块 。 被 请 求 指 令 块 返回 时 放 入 
Cache, 而 预 取 的 指令 块 则 放 在 缓冲 器 中 ; 如 果 某 次 Cache 访问 不 命中 ,而 相应 的 指令 块 
正好 在 缓冲 器 里 , 则 取消 对 存储 器 的 访问 ,直接 从 缓冲 右 中 读 取 这 一 块 ,同时 发 出 对 下 一 
指令 块 的 预 取 访 存 请 求 。21064 的 指令 缓冲 器 中 只 含 一 个 32B 的 块 。 

Jouppi 的 研究 结果 表明 : 对 于 块 大 小 为 16B, 容 量 为 4KB 的 耳 接 映像 指令 Cache 来 
说 ,大 小 为 一 个 块 的 指令 缓冲 器 就 可 以 捕获 15% 一 25% 的 不 命中 ,大 小 为 4 个 块 的 指令 
缓冲 器 可 以 捕获 大 约 50% 的 不 命中 ,而 16 个 块 的 缓冲 需 则 可 以 捕获 72% 的 不 命中 。 

我 们 可 以 用 相似 的 技术 预 取 数据 。Jouppi 统计 ,一 个 数据 流 绥 冲 硕 大 约 可 以 捕获 
4KB 直接 映像 Cache 的 25% 的 不 命中 。 对 于 数据 Cache, 可 以 采用 多 个 数据 流 缓冲 器 ,分 
别 从 不 同 的 地 址 预 取 数据 。Jouppi 发 现 , 用 4 个 数据 流 缓 冲 需 可 以 将 命中 率 提 高 
到 43%。 

Palacharla 和 Kessler 于 1994 年 针对 一 组 科学 计算 程序 ,研究 了 既 能 预 取 指令 又 能 
预 取 效 据 的 流 缓 冲 融 。 他 们 发 现 , 对 于 一 个 具有 两 个 64KB 四 路 组 相 联 Cache( 一 个 用 于 
指令 ,一 个 用 于 数据 ) 的 处理 器 来 说 ,8 个 数据 缓冲 更 能 够 捕获 其 50% 一 70% 的 不 命中 。 

预 取 建立 在 利用 存储 器 的 空闲 带宽 (大 不 采用 预 取 , 这 些 和 带宽 将 浪费 挥 ) 的 基础 上 。 
但 是 ,如 果 它 影响 了 对 正常 不 命中 的 处 理 , 就 可 能 会 降低 性 能 。 利 用 编译 天 的 文 持 ,可 以 
减少 不 必要 的 预 取 。 


6. 编译 器 控制 的 预 取 


这 是 男 一 种 预 取 方 法 。 它 不 是 用 便 件 进行 预 取 ,而 是 由 编译 兹 在 程序 中 加 入 预 取 指 
令 来 实现 预 取 ,这 些 指 令 在 数据 被 用 到 之 前 就 将 它们 取 到 寄存 带 或 Cache 中 。 

按照 预 取 数据 所 放 的 位 置 , 可 把 预 取 分 为 以 下 两 种 类 型 : 

(1) 案 和 存 如 预 取 :; 把 数据 取 到 坷 存 关 中 。 

(2) Cache 预 取 : 只 将 数据 取 到 Cache 中 。 

按照 预 取 的 处 理 方 式 不 同 , 可 把 预 取 分 为 : 

(1) 故障 性 预 取 : 在 预 取 时 ,和 若 出 现 虚 地 址 故障 或 违反 保护 权限 ,就 会 发 生 异 销 。 

(2) 非 故 障 性 预 取 : 当 出 现 虚 地 址 故障 或 违反 保护 权限 时 ,不 发 生 异 筑 ,而 是 放 径 预 
取 ,转变 为 空 操 作 。 

最 有 效 的 预 取 对 程序 是 “语义 上 不 可 见 的 ”; 它 蝶 不 会 改变 指令 和 数据 之 间 的 各 种 逻 
辑 关 系 或 存储 捍 元 的 内 容 , 也 不 会 造成 虚拟 存储 兹 故障 。 本 市 假定 Cache 预 取 都 是 非 故 
障 性 的 ,也 叫 作 非 绑 定 预 取 。 

只 有 在 预 取 数 据 的 同时 处 理 冀 还 能 继续 执行 的 情况 下 , 预 取 才 有 意义 。 这 就 要 求 
Cache 在 等 待 预 取 数 据 返回 的 同时 ,还 能 继续 提供 指令 和 数据 。 这 种 灵活 的 Cache 称 为 
非 阻塞 Cache 或 非 锁定 Cache。 

编译 一 控制 预 取 的 目的 也 是 要 使 执行 指令 和 读 取 数据 能 重症 执行 。 件 环 是 预 取 优化 
的 主要 对 象 。 如 果 不 命 中 开销 较 小 , 编 详 希 只 要 简单 地 将 循环 体 展 开 一 次 或 两 次 ,并 调度 
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好 预 取 和 执行 的 重合 。 如 果 不 命中 开销 较 大 ,编译 带 就 将 循环 体 展开 许多 次 ,以便 为 后 面 
较 远 的 循环 预 取 数 据 ， 

每 次 预 取 需 要 花费 一 条 指令 的 开销 ,因此 ,要 注意 保证 这 种 开销 不 超过 预 取 所 带 来 的 
收益 。 编 详 带 可 以 通过 把 重点 放 在 那些 可 能 会 导致 不 命中 的 访问 上 ,使 程序 避免 不 必要 
的 预 取 ,从 而 较 大 程度 地 减少 平均 访 存 时 间 。 


7. 编译 优化 


这 种 方法 是 通过 对 软件 进行 优化 来 降低 不 命中 率 ,与 其 他 降低 Cache 不 命中 率 的 方 
法 相 比 ,这 种 方法 的 特色 是 无 需 对 人 硬件 做 任何 改动 。 

处 理 硕 和 主 存 之 间 的 性 能 差距 越 来 越 大 ,这 促使 编译 硕 的 设计 者 们 去 仔细 研究 存储 
层次 的 行为 ,以 期 能 通过 编译 时 的 优化 来 改进 性 能 。 这 种 人 研究 分 为 减少 指令 不 命中 和 减 
少数 据 不 命中 两 个 方面 ,下 面 的 优化 技术 在 很 多 编 详 硕 中 均 有 使 用 。 

(1) 程序 代码 和 数据 重组 

我 们 能 很 容 多 地 重新 组 织 程序 而 不 影 啊 程序 的 正确 性 ,例如 ,把 一 个 程序 中 的 过 程 重 
新 排序 ,就 可 能 会 减少 冲突 不 命中 ,从 而 降低 指令 不 命中 率 ,McFarling 人 研究 了 如 何 使 用 
配置 文件 来 进行 这 种 优化 。 还 有 一 种 优化 ,是 为 了 提高 Cache 块 的 效率 , 它 把 基本 块 对 
齐 ,使 得 程序 的 入 口 点 与 Cache 块 的 起 始 位 置 对 齐 , 就 可 以 减少 顺序 代码 执行 时 所 发 生 的 
Cache 不 命中 的 可 能 性 。 

另外 ,如果 编 译 顺 知道 一 个 分 支 指令 很 可 能 会 成 功 转移 ,那么 它 就 可 以 通过 以 下 两 步 
来 改善 空间 局 部 性 : 内 将 转移 目标 处 的 基本 块 和 紧 跟 着 该 分 文 指 令 后 的 基本 块 进行 对 
调 ; 四 把 该 分 文 指令 换 为 操作 语义 相反 的 分 文 指令 。 

与 代码 相 比 ,数据 对 存储 位 置 的 限制 更 少 , 因 此 更 便于 调整 顺序 。 对 数据 进行 变换 的 
目的 是 改善 其 空间 局 部 性 和 时 间 局 部 性 。 例 如 ,对 数组 的 运算 可 以 变换 为 对 存放 在 同一 
Cache 块 中 的 所 有 数据 的 操作 ,而 不 是 按照 程 序 员 原来 随意 编写 的 顺序 访问 数组 元 素 。 

编译 优化 技术 包括 数组 合并 、 内 外 循环 交换 ,循环 融合 、 分 块 等 。 数 组 合并 是 将 本 来 
相互 独立 的 多 个 数组 合并 成 为 一 个 复合 数组 ,以 提高 访问 它们 的 局 部 性 。 循 环 融合 是 将 
奢 干 个 独立 的 循环 融合 为 单个 的 循环 ,这 些 循环 访问 同样 的 数组 ,对 相同 的 数据 作 不 同 的 
运算 ,这样 能 使 得 谈 人 Cache 的 数据 在 被 蔡 换 出 去 之 前 ,能 得 到 反复 的 使 用 。 

下 面 展 开 论 述 内 外 循环 交换 和 分 块 技术 。 

(2) 内 外 循环 交换 

有 些 程序 中 含有 组 和 套 循 环 ,程序 不 是 按照 数据 在 存储 希 中 存储 的 顺序 进行 访问 。 在 
这 种 情况 下 ,只 要 简单 地 交换 循环 的 散 套 关系 ,就 能 使 程序 按 数 据 在 存储 问 中 存储 的 顺序 
进行 访问 。 这 种 技术 是 通过 提高 空间 局 部 性 来 减少 不 命中 次 数 。 

考虑 以 下 代码 : 

for(j=0; j<100; j=j+1) 


for(i=0; i<5000; i=1i+1) 
x[i][j]=2x*xx[il]lj}]j; 


该 程序 以 100 个 宇 的 览 中 访问 存储 天 ,局 部 性 不 好 。 
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把 该 程序 的 内 外 循环 进行 交换 ,可 得 如 下 的 代码 : 
for (i=0; i<5000; i=i+1) 
for(j=0; j<100; j=j+1) 
[i il=2*x[1iIj 
修改 后 的 程序 顺序 依次 地 访问 同一 个 Cache 块 中 的 各 元 素 , 然 后 再 访问 下 一 块 中 的 
各 元 率 。 
3 
这 种 优化 可 能 是 Cache 优化 拉 术 中 最 者 名 的 一 种 , 它 是 通过 提高 时 间 局 部 性 来 减少 
不 命中 次 数 。 我 们 还 是 以 对 多 个 数组 的 访问 为 例 , 有 些 数 组 是 按 行 访问 ,和 而 有 些 则 是 按 列 
访问 。 无 论 数 组 是 按 行 优 先 还 是 按 列 优先 存储 ,部 不 能 解决 问题 ,因为 在 每 一 次 人 循环 中 有 既 
有 按 行 访问 也 有 按 列 访问 。 这 种 正 交 的 访问 意味 看 前 面 的 变换 方法 ,如 内 外 循环 交换 ,对 
此 无 能 为 力 。 
分 块 算 法 不 是 对 数组 的 整 行 或 整 列 进行 访问 ,而 是 对 于 窍 阵 或 块 进 行 操 作 , 其 目的 仍 
然 是 使 一 个 Cache 块 在 被 蔡 换 之 前 最 大 限度 地 利用 它 , 下 面 这 个 矩阵 乘法 程序 会 帮助 我 
们 理解 为 什么 要 采用 这 种 优化 技术 。 
for (i=0; i<N; i=i+1) 
for(j=0; j<N j=j+1)1 
r=0; 
for(k=0; k<N; k=k+1) 
r=r+y[il[k]lxz[k]l[ jl]; 
x[ 大 [了 j=z， 
} 
两 个 内 部 循环 读 取 了 数组 z 的 全 部 N XN 个 元 素 , 并 反复 读 取 数 组 y 的 某 一 行 中 的 
N 个 元 素 , 所 产生 的 N 个 结果 被 写 人 数组 z 的 某 一 行 。 图 4. 9 给 出 了 当 i 王 1, 对 3 个 数 
组 的 访问 情况 。 其 中 黑色 表示 最 近 被 访问 过 ,灰色 表示 早 些 时 候 被 访问 过 ,而 月 色 表 示 疝 
未 被 访问 。 


x 下 2 


图 4.9 当 i=1 时 对 zx,y,z 三 个 数组 的 访问 情况 


显然 ,容量 不 命中 次 数 的 多 少 取 决 于 N 和 Cache 的 容量 。 如 果 Cache 只 能 放下 一 个 
NXNN 的 数组 和 一 行 N 个 元 素 ,那么 至 少数 组 y 的 第 i 行 和 数组 的 全 部 元 系 能 同时 放 
在 Cache 里 。 如 果 Cache 容量 还 要 小 的 话 , 对 工 或 = 的 访问 都 可 能 导致 不 命中 。 在 最 坏 
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的 情况 下 ,N 次 操作 会 导致 2N’ 十 N? 次 不 命中 。 

为 了 保证 正在 访问 的 元 又 能 在 Cache 中 命中 ,把 原 程 序 改 为 只 对 大 小 为 BXB 的 子 
数组 进行 计算 ,而 不 是 像 原来 那样 ,从 x 和 xz 的 第 一 个 元 素 开始 一 直人 处 理 到 最 后 一 个 。 

图 4. 10 说 明了 分 块 后 对 3 个 数组 的 访问 情况 。 与 图 4.9 相 比 ,所 访问 的 元 素 个 数 减 
少 了 。 只 考虑 容量 不 命中 ,访问 存储 器 的 总 字数 为 2N;/B 十 N? 次 ,大 约 降低 到 原来 的 
1/B。 分 块 技术 同时 利用 了 空间 局 部 性 和 时 间 局 部 性 ,因为 访问 y 时 利用 了 空间 局 部 性 ， 
而 访问 xz 时 利用 了 时 间 局 部 性 。 


J 
0 1 2 3 4 3 


nh ha 一 全 


虽然 我 们 的 目标 一 直 是 减少 Cache 不 命中 ,分 块 技 术 还 有 助 于 进行 寄存 器 分 配 。 通 
过 减 小 块 大 小 ,使 得 寄存 条 能 容纳 下 整个 Cache 块 ,我 们 可 以 把 程序 中 的 load 和 store 操 
作 的 次 数 减少 到 最 少 。 

上 述 两 点 重点 讨论 了 针对 Cache 优化 了 的 编译 器 和 程序 可 能 带 来 的 好 处 。 随 着 时 间 
的 推移 ,人 处理 器 速度 和 存储 器 速度 之 间 的 差距 越 来 越 大 ,这 种 好 处 的 重要 性 只 会 是 越 来 
越 大 。 


8.“ 牺 牧 ”Cache 


这 种 方法 是 在 Cache 和 其 下 一 级 存储 融 的 数据 通路 上 增设 一 个 全 相 联 的 Cache, 称 
为 “牺牲 "Cache。“ 御 牲 "Cache 中 和 存放 因 冲 突 而 锌 蔡 换 出 去 的 那些 块 ( 即 “牺牲 者 ") 。 每 
当 发 生 不 命中 时 ,在 访问 下 一 级 存储 天 之 前 , 先 检 查 " 牺 牲 "Cache 中 是 否 含有 所 需 的 块 。 
如 条 有 ,了 驶 将 该 块 与 Cache 中 茶 个 块 ( 按 符 换 规则 选择 ) 做 交换 ,把 所 需 的 块 从 “牺牲 ” 
Cache 调 人 Cache。Jouppi 于 1990 年 发 现 , 含 1 一 5 项 的 “牺牲 ?Cache 对 减少 冲突 不 命中 
很 有 效 ,尤其 是 对 于 那些 小 型 的 百 接 映像 数据 Cache 更 是 如 此 。 对 于 不 同 的 程序 ,一 个 项 
数 为 4 的 “牺牲 ”Cache 能 使 一 个 4KB 直接 映像 数据 Cache 的 冲突 不 命中 减少 20% 一 90%。 

从 Cache 的 层次 来 看 “牺牲 ?Cache 可 以 看 成 位 于 Cache 和 存储 天 之 间 的 又 一 级 
Cache, 它 容量 小 ,采用 命中 率 较 高 的 全 相 联 映像 ,而 且 仅 仅 在 蔡 换 时 发 生 作 用 。 

这 里 是 把 “牺牲 ”Cache 归 类 为 减少 不 命中 率 的 方法 。 这 是 因为 把 “牺牲 ”Cache 看 成 
是 Cache 回 下 的 扩展 , 即 把 在 “牺牲 ?Cache 中 找到 所 需 的 数据 也 算是 命中 。 实 际 上 ,如 人 条 
把 “牺牲 ?Cache 归 到 下 一 级 存储 一 , 即 " 站 在 ?Cache 和 ”牺牲 "Cache 之 间 来 看 问题 ,把 “ 牺 
牲 ?Cache 归 类 为 减少 不 命中 开销 的 方法 也 是 可 以 的 ,前 面 介绍 的 伪 相 联 和 预 取 技术 等 也 
都 是 如 此 。 
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4.5.8 人 分离 Cache 和 混合 Cache 


我 们 可 以 把 指令 和 数据 共同 存放 到 一 个 混合 的 Cache( 或 称 统一 Cache) 中 ,由 它 来 同 
时 提供 数据 和 指令 。 但 该 Cache 有 可 能 会 成 为 瓶颈 ,例如 , 当 按 流 水 方式 工作 的 处 理 严 执 
行 load 或 store 指令 时 ,可 能 会 同时 请 求 一 个 数据 字 和 一 个 指令 字 。 有 所 以 对 于 load 或 
store 操作 ,混合 的 Cache 会 出 现 结构 冲突 ,导致 CPU 等 待 。 解 决 这 个 问题 的 一 个 简单 的 
方法 就 是 将 统一 的 Cache 分 为 两 个 Cache, 一 个 专门 存放 指令 , 男 一 个 专门 存放 数据 。 大 
多 数 最 近 生 产 的 处 理 天 都 采用 了 分 离 的 Cache。 

分 离 的 指令 Cache 和 数据 Cache 消除 了 因 Cache 中 的 指令 块 和 数据 块 互相 冲突 而 引 
起 的 失效 ,但 是 这 样 一 来 也 限定 了 分 配给 指令 和 数据 的 空间 。 硅 要 公平 地 对 分 离 Cache 
和 混合 Cache 进行 比较 ,就 要 求 两 种 Cache 的 总 容量 相同 。 例 如 ,分 离 的 1KB 指令 Cache 
和 1KB 数据 Cache 就 应 该 和 容量 为 2KB 的 混合 Cache 相 比 较 。 
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5.1 实验 目的 


(1) 加 深 对 指令 级 并 行 性 及 其 开发 的 理解 。 
(2) 加 次 对 Tomasulo 算法 的 理解 。 


(3) 和 擎 握 Tomasulo 算法 在 指令 流出 ,执行 、 写 结果 各 阶段 对 浮 点 操作 指令 以 及 load 
和 store 指令 进行 什么 处 理 。 
(4) 和 擎 握 采 用 了 Tomasulo 算法 的 浮 点 处 理 部 件 的 结构 。 


(5) 掌握 保留 站 的 结构 ， 
(6) 给 定 被 执行 代码 片段 ,对 于 具体 某 个 时 钟 周期 ,能 够 写 出 保留 站 、 指 令 状 态 表 以 
及 浮 点 寄存 器 状态 表 内 容 的 变化 情况 。 


S.2 实验 平台 


实验 平台 采用 Tomasulo 算法 模拟 硕 。 

设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 : Arch365 

请 扫 摘 以 下 二 维 码 , 单 击 关 注 后 , 按 提 示 操 作 。 


5.3 实验 内 容 和 步骤 


首先 要 擎 握 Tomasulo 模拟 需 的 使 用 方法 ( 见 5.4 节 )。 
(1) 假设 浮 点 功能 部 件 的 延迟 时 间 为 加 减法 2 个 时 钟 周 期 ,乘法 10 个 时 钟 周期 , 除 
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法 40 个 时 钟 周期 ,Load 部件 2 个 时 钟 周期 。 

Q@ 对 于 下 面 的 代码 段 , 给 出 当 指 令 MUL.D 即将 确认 时 ,保留 站 ,load 缓冲 器 以 及 寄 
存 硕 状态 表 中 的 内 容 。 

L.D F6, 24(R2) 

L.D F2,12 (R3) 

MUL.D FO,F2,F4 

SUB.D F8,F6,F2 

DIV.D Fl10,FO0,F6 

ADD.D F6,F8,F2 

四 按 步 进 方式 执行 上 述 代 码 , 利 用 模拟 器 的 “小 三 角 按 钮 ?的 对 比 显 示 功 能 ,观察 每 
一 个 时 钟 周期 前 后 各 信息 表 中 内 容 的 变化 情况 。 
(2) 对 于 与 上 面相 同 的 延迟 时 间 和 代码 段 : 
Q 给 出 在 第 3 个 时 钟 周 期 时 保留 站 的 内 容 。 
@ 步 进 5 个 时 钟 周 期 ,给 出 这 时 保留 站 load 缓冲 器 以 及 寄存 器 状态 表 中 的 内 容 。 
G) 再 步 进 10 个 时 钟 周期 ,给 出 这 时 保留 站 、load 缓冲 需 以 及 寄存 需 状 态 表 中 的 
内 容 。 
(3) 假设 浮 点 功能 部 件 的 延迟 时 间 为 加 减法 3 个 时 钟 周期 ,乘法 8 个 时 钟 周 期 ,除法 
40 个 时 钟 周 期 。 自 己 编 写 一 段 程序 (要 在 实验 报告 中 给 出 ) ,重复 上 述 步骤 (2) 的 工作 。 


5.4 Tomasulo 算法 模拟 器 的 使 用 方法 


1. 设置 指令 和 参数 


本 模拟 需 最 多 可 以 模拟 10 条 指令 。 可 以 在 “指令 ”区 选择 和 设置 所 要 的 指令 。“ 指 
令 ” 区 如 图 5.1 所 示 。 


EE 


你 可 以 从 下 拉 框 中 选择 指令 , 供 选 择 的 指令 有 以 下 5 种 : 
(1) L.D 指令 : 从 主 存 读 取 一 个 双 精 度 浮 点 数 ; 
(2) ADD.D: 双 精 度 浮 点 加 法 指令 ; 
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(3) SUB. D: 双 精 度 浮 点 减法 指令 ; 

(4) MULT. D: 双 精 度 浮 点 乘法 指令 ; 

(5) DIV.D: 双 精 度 浮 点 除法 指令 。 

指令 的 各 参数 也 可 以 从 各 目的 下 拉 框 中 选择 。 

你 还 可 以 在 窗口 的 右上 区 域 设置 各 部 件 的 执行 时 间 ( 时 钟 周期 数 ) ,如 图 5. 2 所 示 。 


功能 部 件 的 执行 时 间 
Load 加 / 沽 


磁 法 际 法 


DD © 


5.2 设置 功能 部 件 时 间 
其 中 “复位 ”的 作用 是 使 所有 设置 恢复 为 默认 值 。 


单 击 “ 执 行 ” 按 钮 ,就 进入 执行 状态 。 你 可 以 用 中 间 的 按钮 来 控制 指令 的 执行 ,包括 
“ 步 进 ”“ 退 1 步 " “前 进 5 个 周期 * “后退 5 个 周期 *"“ 执 行 到 底 ”“ 退 出 ”等 。 还 可 以 单 
击 go 按钮 耳 接 跳 苇 到 你 所 指定 的 时 钟 周 期 。 如 来 想 修改 被 执行 的 代码 , 单 击 “ 退 出 ” 按 
钮 , 即 可 回 到 设置 指令 和 参数 页 面 。 

器 前 执行 后 ,状态 表 中 抹 色 的 字段 表示 其 内 容 发 生 了 变化 。 


3. 对 比 状态 表 


每 一 个 状态 表 的 右上 角 外 侧 都 有 一 个 小 三 角 , 单 击 鼠 标 左 键 ,会 弹出 该 表 在 上 一 个 时 
钟 周期 的 内 容 。 这 是 为 了 让 你 通过 对 比 来 了 解 哪些 内 容 发 生 了 变化 。 在 弹出 表 以 外 的 区 
域 再 次 单 击 鼠标 左 键 , 就 可 以 将 其 收回 。 


4. 各 个 表 的 内 容 


(1) 指令 状态 表 

指令 状态 表 如 图 5. 3 所 示 , 它 列 出 了 各 指令 什么 时 候 执 行 到 了 哪 一 步 。 其 中 的 数字 
表示 时 钟 周 期 ， 一 ”表示 时 钟 周 期 期 间 。 例 如 ,图 5.3 中 的 2 一 3 表示 在 第 2 到 第 3 个 时 
钟 周期 ( 含 第 3 个 ) ,第 一 条 L.D 指令 是 在 “执行 ”这 一 步 。 

其 中 抹 色 的 区 域 表 示 最 近 一 个 时 钟 周 期 其 内 容 发 生 了 变化 ,下 同 。 

(2) 保留 站 

保留 站 的 内 容 如 图 5.4 所 示 。 

其 中 各 字段 的 名 称 和 含义 如 下 : 

Time: 表示 相应 的 保留 站 还 要 执行 多 少 个 时 钟 周 期 ; 

名 称 : 保留 站 的 名 称 , 用 于 唯一 地 标识 相应 的 保留 站 ; 
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FB ; 21 (R3) 
.1 F4 ; 1B (RE4) 
DD FE2 Fd, 
UB.D Fi0, FO, Fd4 
IV.DN Fl2, F2, FS8 

By FliD; Fd4 


已 
bj 
en 


WULT 
3S 


i 


可 
安 
己 
rd 
总 


图 5.3 指令 状态 表 


图 5.4 保留 站 


Op: 要 对 源 操作 数 进行 的 操作 ; 

Qj,Qk: 将 产生 源 操作 数 的 保留 站 名 称 。 其 值 为 0 表示 操作 数 已 经 就 绪 且 在 Vj 或 
Vk 中 ,或 者 不 需要 操作 数 ; 

Vj,Vk: 源 操 作 数 的 值 , 对 于 每 一 个 操作 数 来 说 ,V 和 Q 字段 只 有 一 个 有 效 ; 

Busy: 为 Yes 表示 该 保留 站 忙 ”。 

(3) Load 部 件 

Load 部 件 的 内 容 如 图 5.5 所 示 。 它 按 队 列 方式 工作 ,每 次 处 理 新 的 访 存 都 是 从 队列 
头 部 取 走 一 条 。 


图 5.5 Load 部 件 


其 中 各 字段 的 含义 如 下 : 

名 称 : 相应 单元 的 名 称 ( 标 识 ); 

Busy:“ 忙 ”标志 ,为 Yes 表示 已 被 占用 ; 
地 址 : 访 存 的 有 效 地 址 ; 

值 : 存放 从 存储 器 读 来 的 数据 。 


(4) 寄存 兹 
寄存 器 的 内 容 如 岁 5.6 所 示 。 
各 字段 的 含义 如 下 : 


Qi: 寄存 胡 状 态 , 用 于 存放 将 把 结 采 写 人 该 寄存 毅 的 保留 站 的 站 号 。 为 0 表示 当前 
没有 正在 执行 的 指令 要 写 和 人 该 守 存 冀 , 即 该 守 存 遂 中 的 内 容 就 绪 。 
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图 5.6 寄存 大 的 内 容 


值 : 寄存 船 的 值 。 
当 上 述 表 中 的 内 容 与 不 下 时 ,模拟 天 会 炒 用 编 与 的 方法 。 这 时 ,在 上 面 中 间 的 区 域 中 
会 显示 缩写 及 其 值 。 


sS.S 相关 知识 : Tomasulo 算法 


5.5.1 基本 思想 


Tomasulo 算法 是 由 Robert Tomasulo 发 明 的 ,因而 以 他 的 名 宇 命 名 。IBM 360791 
机 硕 中 的 浮 点 部 件 首 抑 采 用 了 这 种 方法 。 尽 管 许 多 现代 处 理 机 采用 了 这 种 方法 的 各 种 变 
形 ,但 其 核心 思想 都 是 : 山 记 录 和 检测 指令 相关 ,操作 数 一 旦 就 绪 就 立即 执行 ,把 发 生 
RAW 冲突 的 可 能 性 减少 到 最 少 ; 四 通过 寄存 器 换 名 来 消除 WAR 冲突 和 WAW 冲突 ， 

图 5.7 是 基于 Tomasulo 算法 的 浮 点 处 理 部 件 的 基本 结构 ,其 中 采用 了 多 个 功能 部 
件 。 图 中 没有 画 出 记录 和 控制 指令 执行 所 使 用 的 各 种 表格 。 


从 指令 部 件 来 
指 户 ”| ” 浮 点 寄存 器 FP 
让 | 一 
。 列 斑 一 一 
fs 吕 人 
load/store 操作 | 


store 缓冲 需 地 址 部 件 


浮 点 操作 
操作 数 总 线 晤 
| 


仓储 部 件 溯 扣 加 法 浮上 扩 乘 法 途 


公共 数据 总 线 (CDB) 
图 5.7 采用 Tomasulo 算法 的 浮 点 处 理 部 件 的 基本 结构 
下 面 对 图 5.7 中 的 各 组 成 部 分 作 一 简要 说 明 。 
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(1) 保留 站 

保留 站 设置 在 运算 部 件 的 入 口 ,每 个 保留 站 中 保存 一 条 已 经 流出 并 等 待 到 本 功能 部 
件 执行 的 指令 (相关 信息 ) ,包括 操作 码 、 操 作 数 以 及 用 于 检测 和 解决 冲突 的 信息 。 在 一 条 
指令 流出 到 保留 站 的 时 候 , 如 果 该 指令 的 源 操 作 数 已 经 在 寄存 需 中 就 绪 , 则 将 之 取 到 该 保 
留 站 中 。 如 果 操 作 数 还 没有 计算 出 来 , 则 在 该 保留 站 中 记录 将 产生 这 个 操作 数 的 保留 站 
的 标识 。 浮 点 加 法 郑 有 3 个 保留 站 ,分 别 命 名 为 ADD1、ADD2、ADD3, 浮 点 来 法 器 有 两 
个 保留 站 ,分 别 命名 为 MULT1、MULT2。 每 个 保留 站 都 有 一 个 标识 字段 ,唯一 地 标识 了 

(2) 公共 数据 总 线 CDB 

公共 数据 总 线 CDB 是 该 结构 中 的 一 条 重要 的 数据 通路 ,所 有 功能 部 件 的 计算 结果 都 
是 送 到 CDB 上 ,由 它 把 这 些 结果 直接 送 到 (播送 到 ) 各 个 需要 该 结果 的 地 方 。 从 存储 器 读 
取 的 数据 也 是 送 到 CDB 上 。CDB 连 到 除了 load 缓冲 器 以 外 的 所 有 部 件 的 入 口 。 浮 点 寄 
存 需 通过 一 对 总 线 连 接 到 功能 部 件 ,并 通过 CDB 连接 到 store 缓冲 颖 的 入 口 。 

(3) load 缓冲 逢 和 store 缓冲 角 

load 缓冲 需 和 store 缓冲 右 中 存放 的 是 读 / 写 存储 器 的 数据 或 地 址 。 它 们 的 行为 和 
保留 站 类 似 , 所 以 也 把 它们 当 作 保留 站 来 看 待 。 只 有 必须 区 别 它 们 时 , 才 加 以 区 分 。 

load 绥 冲 更 的 作用 有 3 个， 

Q 存放 用 于 计算 有 效 地 址 的 分 量 ; 

@ 记录 正在 进行 的 load 访 存 ,等 竺 存储 器 的 啊 应 ; 

@ 保存 已 经 完成 了 的 load 的 结果 ( 即 从 存储 需 取 来 的 数据 ) ,等 待 CDB 传输 。 

类 似 地 ,store 缓冲 需 的 作用 也 有 3 个: 

Q 存放 用 于 计算 有 效 地 址 的 分 量 ; 

@ 保存 正在 进行 的 store 访 存 的 目标 地 址 ,该 store 正在 等 竺 存储 数据 的 到 达 ; 

3 保存 该 store 的 地 址 和 数据 ,直到 存储 部 件 接收 。 

(4) 浮 点 寄存 峰 FP 

共有 16 个 浮 点 寄存 器 : F0,F2,F4,…,F30。 它 们 通过 一 对 总 线 连接 到 功能 部 件 , 并 
通过 CDB 连接 到 store 缓冲 帮 。 

(5) 指令 队列 

指令 部 件 送 来 的 指令 放 入 指令 队列 。 指 令 队 列 中 的 指令 按 先 进 先 出 的 顺序 流出 。 

(6) 运算 部 件 

浮 点 加 法 硕 完 成 加 法 和 减法 操作 ,浮上 点 乘法 顺 完 成 梯 法 和 除法 操作 。 

在 Tomasulo 算法 中 ,寄存 些 换 名 是 通过 保留 站 和 流出 逻辑 来 共同 完成 的 。 当 指令 
流出 时 ,如 果 其 操作 数 还 设 有 计算 出 来 , 则 将 该 指令 中 相应 的 寄存 硕 号 换 名 为 将 产生 这 个 
操作 数 的 保留 站 的 标识 。 指 令 流 出 到 保留 站 后 ,其 操作 数 寄 存 需 号 或 者 换 成 了 数据 本 刁 
(如 果 该 数据 已 经 就 绪 ) ,或 者 换 成 了 保留 站 的 标识 ,不 再 与 寄存 占有 关系 。 这 样 后 面 指令 
对 该 寄存 器 的 写 人 操作 就 不 可 能 产生 WAR 冲突 了 。 

采用 Tomasulo 算法 之 后 ,指令 的 执行 分 为 以 下 3 步 。 
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(1) 流出 

从 指令 队列 的 头 部 取 一 条 指令 。 如 果 该 指令 的 操作 所 要 求 的 保留 站 有 空闲 ,就 把 该 
指令 送 到 该 保留 站 ( 设 为 Tr) 。 并 且 , 如 果 其 操作 数 在 寄存 天 中 已 经 就 缚 ,就 将 这 些 操 作 数 
送 入 保留 站 rr。 如 果 其 操作 数 还 没有 了 就绪, 就 把 将 产生 该 操作 数 的 保留 站 的 标识 送 入 保 
留 站 r。 这 样 ,一旦 被 记录 的 保留 站 完成 计算 , 它 将 耳 接 把 数据 送 给 保留 站 r。 这 一 步 实 
际 上 是 进行 了 寄存 闫 换 名 ( 换 成 保留 站 的 标识 ) 和 对 操作 数 进行 缓冲 ,消除 了 WAR 冲突 。 
另外 ,还 要 完成 对 目标 寄存 器 的 预约 工作 ,将 之 设置 为 接受 保留 站 的 结果 。 这 实际 上 相 
当 于 提前 完成 了 写 操 作 ( 预 约 )。 由 于 指令 是 按 程 友 顺 厅 流 出 的 , 当 出 现 多 条 指令 写 同一 
个 结果 寄存 器 时 ,最 后 留 下 的 预约 结果 肯定 是 最 后 一 条 指令 的 ,就 是 说 消 际 了 WAW 


当然 ,如果 没有 空闲 的 保留 站 ,指令 就 不 能 流出 ,这 是 发 生 了 结构 冲突 。 
(2) 执行 


如 果 某 个 操作 数 还 没有 被 计算 出 来 ,本 保留 站 将 监视 CDB, 等 每 所 需 的 计算 结果 。 
一 旦 那个 结果 产生 , 它 将 被 放 到 CDB 上 ,本 保留 站 将 立即 获得 该 数据 。 当 两 个 操作 数 都 
就 绪 后 ,本 保留 站 就 用 相应 的 功能 部 件 开始 执行 指令 规定 的 操作 。 这 里 是 等 到 所 有 操作 
数 都 备 齐 后 才 开 始 执行 指令 ,也 就 是 说 是 徘 推 返 执行 的 方法 解雇 RAW 冲突 。 由 于 结业 
数据 是 从 其 产生 的 部 件 ( 保 留 站 ) 直 接送 到 需要 它 的 地 方 , 所 以 这 已 经 是 最 大 限度 地 减少 
了 RAW 冲突 的 影响 了 。 

显然 ,保留 站 有 可 能 会 出 现 多 条 指令 在 同一 时 钟 周期 变 成 就 绪 的 情况 。 不 同 的 功能 
部 件 可 以 并 行 执行 ,但 在 一 个 功能 部 件 内 部 ,就绪 的 多 条 指令 就 得 和 逐条 地 处 理 。 可 以 采用 
随机 的 方法 选择 要 执行 的 指令 。 

load 和 store 指令 的 执行 需要 两 个 步骤 : 计算 有 效 地 址 (要 等 到 基地 址 寄存 冀 就 绪 ) 
和 把 有 效 地 址 放 入 load 或 store 绥 冲 疾 。load 缓冲 天 中 的 load 指令 的 执行 条 件 是 存储 
做 部件 就 绪 , 而 store 缓冲 天 中 的 store 指令 在 执行 前 必须 等 到 要 存 入 存储 兹 的 数据 到 
达 。 通 过 按 顺 序 进 行 有 效 地 址 计算 来 保证 程序 顺序, 这 有 助 于 避免 访问 存储 颖 的 冲突 。 

(3) 写 结果 

功能 部 件 计算 完毕 后 ,就 将 计算 结果 放 到 CDB 上 ,所 有 等 待 该 计算 结果 的 寄存 需 和 
保留 站 (包括 store 缓冲 着 ) 和 都 同时 从 CDB 上 获得 所 需要 的 数据 。store 指令 在 这 一 步 完 
成 对 存储 天 的 写 人 : 当 写 人 地 址 和 数据 都 备 齐 时 ,将 它们 送 给 存储 大 部 件 , store 指令 

保留 站 .寄存 融 组 和 load/store 缓冲 着 都 包含 附加 标志 信息 ,用 于 检测 和 消除 冲突 。 
不 同 部 件 的 附加 信息 略 有 不 同 。 标 识字 段 实 际 上 就 是 用 于 换 名 的 一 组 虚拟 寄存 需 的 名 称 
(编号 ) 。 例 如 ,在 图 5.7 中 ,标识 字段 可 以 是 一 个 4 位 的 二 进 制 数字 ,用 于 表示 5 个 保留 
站 和 6 个 load 绥 冲 单元 中 的 某 一 个 ,这 相当 于 有 11 个 保留 站 可 以 被 指定 为 产生 结果 的 
源 ( 而 IBM360 体系 结构 中 只 有 4 个 双 精 度 浮 点 寄存 甫 ) ,特殊 编号 0 用 于 表示 寄存 闫 中 
的 操作 数 就 绪 。 

每 个 保留 站 有 以 下 7 个 字段 : 

Op: 要 对 源 操作 数 进 行 的 操作 。 
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Qj,Qk: 将 产生 源 操作 数 的 保留 站 号 。 其 值 为 0 表示 操作 数 已 经 就 缚 且 在 Vj 或 Vk 

Vj,Vk: 源 操 作 数 的 值 。 对 于 每 一 个 操作 数 来 说 ,V 和 Q 字段 只 有 一 个 有 效 。 对 于 
load 来 说 ,Vk 字段 用 于 保存 侦 移 量 。 

Busy: 为 yes 表示 本 保留 站 或 缓冲 单元 " 忙 ”。 

A: 仅 load 和 store 缓 冲 大 有 该 字段 。 开 始 是 存放 指令 中 的 立即 数字 段 ,地 址 计算 后 
存放 有 效 地 址 。 

此 外 ,还 有 个 寄存 需 状 态 表 Qi。 每 个 寄存 大 在 该 表 中 有 对 应 的 一 项 ,用 于 存放 将 把 
结果 写 人 该 寄存 郑 的 保留 站 的 站 号 。 为 0 表示 当前 没有 正在 执行 的 指令 要 写 入 该 寄存 
需 , 也 即 该 寄存 关中 的 内 容 就 绪 。 


5.5.2 具体 算法 
下 面 给 出 Tomasulo 算法 中 指令 进入 各 阶段 的 条 件 以 及 在 各 阶段 进行 的 操作 和 状态 


表 内 容 修改 ,其 中 各 符号 的 意义 如 下 。 
r: 分 配给 当前 指令 的 保留 站 或 者 缓冲 玉 单 元 (编号 ) ; 


rd: 目标 寄存 硕 编 号 ; rs rt: 操作 数 寄 存疑 编号 ; 


result: 浮 点 部 件 或 load 缓冲 兹 返回 的 结果 ; Qi: 奇人 在 硕 状态 表 ; 

Regsl ]: 寄存 天 组 ; 

对 于 load 指令 来 说 ,rt 是 保存 所 取 数 据 的 寄存 硕 号 ,对 于 store 指令 来 说 ,rt 是 保存 
所 要 存储 的 数据 的 寄存 妖 写 。 瑟 rs 对 应 的 保留 站 字段 是 Vj,Qj; 与 rt 对 应 的 保留 站 字 
段 是 Vk,Qk。 

请 注意 : Qi、Qj、QEk 的 内 容 或 者 为 0, 或 者 是 一 个 大 于 0 的 整数 。Qi 为 0 表示 相应 寄 
存 表 中 的 数据 就 绪 ,Qj、Qk 为 0 表示 保留 站 或 缓冲 硕 单 元 中 的 Vj 或 Vk 字段 中 的 数据 就 
绪 。 当 它们 为 正 整 数 时 ,表示 相应 的 坷 存 硕 、 保 留 站 或 缓冲 需 单 元 正在 等 竺 结果, 这 个 正 
整数 就 是 将 产生 该 结果 的 保留 站 或 load 缓冲 如 单元 的 编号 。 


1. 指令 流出 


(1) 浮 点 运算 指令 
进入 条 件 : 有 空闲 保留 站 ( 设 为 7) 


It (Qi[rs] = 0) // 检 测 第 一 操作 数 是 否 就 绪 
{RS[r].Vj<Regs[rs]; // 第 一 操作 数 就 绪 , 把 寄存 器 rs 中 的 操作 数 取 到 当前 
// 保 留 站 的 了 
RS[r].Qj<—0}; // 置 Qj 为 0, 表 示 当 前 保留 站 的 WI 中 的 操作 数 就 绪 
else // 第 一 操作 数 没 有 就 绪 


{Rs[r].0j<-oi[rs]}  ”” // 进 行 寄 存 器 换 名 , 即 把 将 产生 该 操作 数 的 保留 站 的 编号 
// 放 入 当前 保留 站 的 0j, 该 编号 是 一 个 大 于 0 的 整数 
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if (Ooi[rt] = 0) 
{RSLT].VK<Regs[rt|]，; 


RS[r].Qk<—0}; 
else 
{RS[Lr].Qk<Qilrt]} 


RS[r]. Busy<— yes; 


RS[r]. Op<—Op; 
Qi[rd]< 一 工 ; 


(2) load 和 store 指令 


// 检 测 第 二 操作 数 是 否 就 绪 

// 第 二 操作 数 就 绪 , 把 寄存 器 rt 中 的 操作 数 取 到 当前 
// 保 留 站 的 下 

// 置 Qk 为 0, 表示 当前 保留 站 的 三 中 的 操作 数 就 绪 
// 第 二 操作 数 没有 就 绪 

// 进 行 寄 存 右 换 名 , 即 把 将 产生 该 操作 数 的 保留 站 的 编号 放 入 当 
// 前 保留 站 的 Qk 

// 置 当前 保留 站 为 “人 忙 ” 

// 设 置 操作 码 

// 把 当前 保留 站 的 编号 r 放 入 rd 所 对 应 的 寄存 器 状态 表 项 ， 
// 以 便 rd 将 来 接收 结果 


进入 条 件 : 缓冲 天 有 空闲 单元 ( 设 为 T) 


操作 和 状态 表 内 容 修改 : 


if (Qi[rs] = 0) 
{RS[r].Vj<Regs[rs]; 


RS[r].Qj<—0}; 
else 


{RS[r].Qj<Qilrs]} 


RS[r|].Busy— yes; 
RS[r|]. A Imm; 


Qilrtl<r; 


对 于 store 指令 : 


if (Qi[rt] = 0) 
{RS[r]. Vk<—Regs[rt]; 
RS[r].Qk<—0}; 
else 
{RS[r].Qk<—Qilrt]} 


(1) 浮 点 操作 指令 


// 检 测 第 一 操作 数 是 否 就 绪 
// 第 一 操作 数 就 绪 , 把 寄存 器 rs 中 的 操作 数 取 到 当前 缓冲 器 
/7 单元 的 人 


// 置 Qj 为 0, 表示 当前 缓冲 需 单 元 的 V]j 中 的 操作 数 就 绪 
// 第 一 操作 数 没 有 就 绪 

// 进 行 寄 存 咒 换 名 , 即 把 将 产生 该 操作 数 的 保留 站 的 编号 
// 存 人 当前 缓冲 硕 单 元 的 Qj 

// 置 当前 缓冲 器 单元 为 “ 忙 ” 

// 把 符号 位 扩展 后 的 偏 移 量 放 入 当前 缓冲 器 单元 的 A 


// 把 当前 缓冲 髓 单元 的 编号 rf 放 入 load 指令 的 目标 寄存 天 rt 
// 所 对 应 的 寄存 器 状态 表 项 , 以便 rt 将 来 接收 所 取 的 数据 


// 检 测 要 存储 的 数据 是 否 就 绪 

// 该 数据 就 绪 , 把 它 从 寄存 器 rt 取 到 store 缓冲 器 单元 的 普 
// 置 Qk 为 0, 表示 当前 缓冲 器 单元 的 米 中 的 数据 就 绪 

// 该 数据 没有 就 绪 

// 进 行 寄存 器 换 名 , 即 把 将 产生 该 数据 的 保留 站 的 编号 

// 放 人 当前 缓冲 器 单元 的 Qk 


进入 条 件 : (RS[rj]. Qj==0) 且 (RS[Lr]. Qk 二 0)// 两 个 源 操作 数 就 绪 


操作 和 状态 表 内 容 修改 : 


(2) load/store 指令 


进行 计算 ,产生 结果 。 


进 和 条件; (RSLrj]. Qj 二 0) 且 fr 成 为 load/store 缓冲 队列 的 头 部 


操作 和 状态 表 内 容 修改 : 
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对 于 load 指令 ,在 完成 有 效 地 址 计算 后 ,还 要 进行 ， 
从 Mem[RS[r].A] 读 取 数 据 // 从 存储 器 中 读 取 数据 
3. 与 结果 


(1) 浮 点 运算 指令 和 load 指 今 
进入 条 件 ; 保留 站 r 执行 结束 , 且 CDB 就 绪 。 
操作 和 状态 表 内 容 修 改 : 


vx (if(Qi[x] =r) // 对 于 任何 一 个 正在 等 该 结果 的 浮 点 寄存 髓 x 
{Regs[x|]—result; // 回 该 寄存 器 写 人 结果 
Qi[x]<—0}; // 把 该 寄存 器 的 状态 置 为 数据 就 绪 

vx (if(RS[x].0Qj=r) // 对 于 任何 一 个 正在 等 该 结果 作为 第 一 操作 数 的 保留 站 xx 
{RS[x] .Vj<result; // 回 该 保留 站 的 j 写 人 结果 
RS[x] .Qj<0}); // 置 Qj 为 0, 表 示 该 保留 站 的 Vj 中 的 操作 数 就 绪 

vx (if(RS[x].Qk=r) // 对 于 任何 一 个 正在 等 该 结果 作为 第 二 操作 数 的 保留 站 x 
{RS[x]. Vk<—result; // 回 该 保留 站 的 不 写 人 结果 
RS[x]. Qk<—0}); // 置 Qk 为 0, 表 示 该 保留 站 的 炮 中 的 操作 数 就 绪 

RS[r]. Busy< no; // 释 放 当 前 保留 站 ,将 之 置 为 空闲 状态 


(2) store 指令 
进入 条 件 : 保留 站 执行 结束 ,日 RSLrj. Qk 二 0 // 要 存储 的 数据 已 经 就 绪 
操作 和 状态 表 内 容 修 改 : 


Mem[ RS[r].A]<RS[r].Wk // 数 据 写 和 存储器, 地址 由 store 缓冲 项 单元 的 
//A 字段 给 出 

RS[r]. Busy<—no; // 释 放 当 前 缓冲 器 单元 ,将 之 置 为 空闲 状 态 

说 明 : 


(1) 当 浮 点 运算 指令 流出 到 一 个 保留 站 时 ,把 该 指令 的 目标 寄存 器 rd 的 状态 表 项 
置 为 r, 以 便 将 来 从 r 接收 运算 结果 (相当 于 进行 了 预约 或 者 定 癌 )。 如 果 该 指令 所 需 的 操 
作 数 都 已 经 就 绪 , 就 将 之 取 到 保留 站 的 V 字段 ; 否则 ,就 表示 需要 等 待 由 别 的 保留 站 
( 设 为 s) 为 其 产生 操作 数 ,这 时 就 把 保留 站 的 Q 字段 设置 为 指向 保留 站 s, 指 令 将 在 保 
留 站 rz 中 等 待 操 作 数 ,直到 保留 站 s 把 结果 送 来 (同时 将 该 Q 字段 置 为 0)。 当 指令 执行 
完成 且 CDB 就 绪 ,就 可 以 把 结果 写 回 , 即 把 数据 放 到 CDB 上 ,所 有 Qj、Qk 或 Qi 字段 等 
于 s 的 保留 站 ,缓冲 器 单元 以 及 寄存 器 都 可 以 在 同一 个 时 钟 周期 内 同时 接收 该 结果 。 即 
把 该 结果 在 一 个 时 钟 周 期 内 播送 到 了 所 有 需要 它 的 地 方 。 操 作 数 因此 而 备 齐 的 指令 可 以 
在 下 一 个 时 钟 周期 开始 执行 。 

(2) 在 Tomasulo 算法 中 ,load 和 store 指令 的 处 理 与 浮 点 运算 指令 有 些 不 同 。 只 要 
load 缓冲 需 有 空闲 单元 ,load 指令 就 可 以 流出 。load 指令 在 “执行 ”阶段 分 两 步 进 行 : 计 
算 有 效 地 址 和 访 存 读 取 数据 。 执 行 完 毕 后 ,与 其 他 功能 部 件 一 样 , 有 DB 的 使 用 
权 ,就 可 以 将 结果 放 到 CDB 上 。store 指令 的 写 人 操作 在 "与 结果 ?阶段 进行 。 如 果 要 与 
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入 的 数据 已 经 弥 缩 , 束 可 以 蕊 上 进行 。 耕 则 就 需要 等 每 ,等 该 数据 产生 后 从 CDB 获得 , 然 
后 写 入 存储 各 。 最 后 要 释放 当前 缓冲 各 单 元 ,将 之 置 为 空 用 状态 。 

(3) 该 算法 对 于 指令 的 执行 有 个 限制 ,就 是 如 来 流水 线 中 还 有 分 文 指 令 没 有 执行 , 那 
么 当前 指令 就 不 能 进入 “执行 ”阶段 。 这 是 因为 在 “流出 ”阶段 后 ,程序 顺序 束 不 骨 锌 保证 
了 。 所 以 ,为 了 保持 正确 的 异 第 行为 ,必须 加 上 这 个 限制 。 


实验 6 再 定 序 缓冲 (了 ROB) 工 作 原 理 


6.1 实验 目的 


(1) 加 这 对 指令 级 并 行 性 及 其 开发 的 理解 。 

(2) 加 深 对 基于 人 硬件 的 前 脆 执 行 的 理解 。 

(3) 擎 握 ROB 在 流出 ,执行 、 写 结果 ,确认 4 个 阶段 所 进行 的 操作 。 

(4) 掌握 ROB 缓冲 器 的 结构 。 

(5) 给 定 被 执行 代码 片段 ,对 于 具体 茶 个 时 钟 周期 ,能 写 出 保留 站 、ROB 以 及 浮 点 寄 
存 硕 状态 表 内 容 的 变化 情况 。 


实验 平台 采用 上 冉 定 序 缓冲 ROB 模拟 硕 。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 : Arch365 


6.3 实验 内 容 和 步骤 


首先 要 掌握 ROB 模拟 器 的 使 用 方法 ( 见 6. 4 节 )。 
(1) 假设 浮 点 功能 部 件 的 延迟 时 间 为 加 法 2 个 时 钟 周期 ,乘法 10 个 时 钟 周 期 ,除法 
40 个 时 钟 周 期 ,Load 部 件 2 个 时 钟 周 期 。 
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Oz 对 于 下 面 的 代码 段 , 给 出 当 指 令 MUL. D 即将 确认 时 保留 站 、ROB 以 及 浮 点 寄存 
妖 状 态 表 的 内 容 。 

L.D F6, 24(R2) 

L.D F2,12(R3) 

MUL.D FO,F2,F4 

SUB.D F8,F6,F2 

DIV.D F100,FO,F6 

ADD.D F6,F8,F2 

@ 按 步 进 方 式 执 行 上 述 代码 ,利用 模拟 器 的 “小 三 角 按 钮 ”的 对 比 显 示 功 能 ,观察 每 
一 个 时 钟 周 期 前 后 保留 站 、ROB 以 及 浮 点 寄存 右 状 态 表 的 内 容 的 变化 情况 。 

(2) 对 于 与 上 面相 同 的 延迟 时 间 和 代码 段 : 

JW 给 出 在 第 5 个 时 钟 周期 时 ,保留 站 的 内 容 。 

@ 步 进 5 个 时 钟 周期 ,ROB 的 内 容 有 哪些 变化 ? 

@@ 再 步 进 5 个 时 钟 周期 ,给 出 这 时 保留 站 、ROB 以 及 浮 点 寄存 间 状 态 表 的 内 容 。 

(3) 假设 浮 点 功能 部 件 的 延迟 时 间 为 加 减法 3 个 时 钟 周 期 ,乘法 8 个 时 钟 周 期 ,除法 
40 个 时 钟 周 期 。 自 己 编写 一 段 程序 ( 要 在 实验 报告 中 给 出 ) ,重复 上 述 步 又 2 的 工作 。 


6.4 ROB 模拟 强 的 使 用 万 法 


1. 设置 指令 和 参数 


本 模拟 硕 最 多 可 以 模拟 10 条 指令 ,可 以 在 “指令 ?区 选择 和 设置 所 要 的 指令 “指令 ” 
区 如 图 6. 1 所 示 。 


你 可 以 从 下 拉 框 中 选择 指令 , 供 选 择 的 指令 有 以 下 5 种 : 
(1) L.D 指令 : 从 主 存 读 取 一 个 双 精 度 浮 点 数 ; 

(2) ADD. D: 双 精 度 浮 点 加 法 指令 ; 

(3) SUB. D: 双 精 度 浮 点 减法 指令 ; 

(4) MULT.D: 双 精 度 浮 点 乘法 指令 ; 

(5) DIV.D: 双 精 度 浮 点 除法 指令 。 
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指令 的 各 参数 也 可 以 从 各 目的 下 拉 框 中 选择 。 


你 还 可 以 在 窗口 的 右上 区 域 设置 各 部 件 的 执行 时 间 ( 时 钟 周期 数 ) ,如 图 6. 2 所 示 
功能 部 件 的 执行 时 间 


Load 加 /7 减 


磁 法 际 法 


@D 辐 


图 6.2 i 


设置 功能 部 件 时 间 
其 中 “复位 ”的 作用 是 使 所 有 设置 恢复 为 默认 值 


单 击 “ 执 行 ” 按 钮 ,就 进入 执行 状态 。 你 可 以 用 中 间 的 按钮 来 控制 指令 的 执行 ,包括 
“ 步 进 ”“] 过 “上 人; 刘 ee a 


退 1 步 "” “前 进 5 个 周期 * “后 退 5 个 周期 * “执行 到 底 ”“ 退 出” 等。 还 可 以 年 
击 go 按钮 直接 跳 苇 到 你 所 指定 的 时 钟 周期 。 如 条 想 修改 被 执行 的 代码 , 单 击 ”; 
钮 , 即 可 回 到 设置 指令 和 参数 页 面 


器 前 执行 后 ,状态 表 中 抹 色 的 字段 表示 其 内 容 发 生 了 变化 
3. 对比 状态 表 


退出 ? 按 


个 状态 表 的 右上 角 外 侧 者 有 一 个 小 三 角 , 单 击 鼠标 左 键 ,会 弹出 该 表 在 上 一 个 时 
钟 周期 的 内 容 , 这 是 为 了 让 你 通过 对 比 来 了 解 哪 些 内 容 发 生 了 变化 。 在 弹出 表 以 外 的 区 
域 册 次 单 击 女 标 左 键 ,就 可 以 将 其 收回 

4. 各 个 表 的 内 容 

(1) 指令 状态 表 


一 "表示 时 钟 周期 期 间 。 
钟 周 期 , 囊 一 


人 6. 3 所 示 , 它 列 出 了 各 指令 什么 时 候 执 行 到 了 哪 一 步 。 其 中 的 数字 
表示 时 钟 周 期 
-条 L. DD 指 今 


例如 ,图 6. 3 中 的 2 一 3 表示 在 第 2 到 第 3 个 时 
是 在 “执行 ”这 一 步 。 


FS » 21 (R3) 


F4» 16 4) 
MULT.D Fes, F4s FB 


SUB.D Fl0, FS, F4 
DIV.D Fl2s, F2, FS 
» Fl0 , F4 


站 6.3 ”指令 状态 表 
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其 中 抹 色 的 区 域 表 示 最 近 一 个 时 钟 周 期 其 内 容 发 生 了 变化 ,下 同 。 

(2) 再 定 序 缓冲 天 ROB 

ROB 如 图 6.4 所 示 , 它 按 队列 方式 工作 ,其 中 各 字段 的 意义 如 下 : 

标记 : 用 于 给 出 队列 的 头 和 尾 ; 

项 号 : 给 出 各 项 的 编号 ; 

Busy:“ 忙 ”标志 ,指出 相应 的 行 是 否 已 占用 ; 

指令 : 给 出 是 什么 指令 占用 该 行 ; 

目的 地 : 指出 结果 与 到 哪里 去 ; 

值 : 暂时 存放 相应 指令 的 计算 结果 ,在 该 指令 锌 确认 时 ,将 被 写 到 目的 地 。 


二 雪 雪 人 雪 全 汕 


肝 定 序 强 圳 器 (ROB) 
| Busy “| 指令 
Yes ILD F821(3) |F8 | 


图 6.4 再 定 序 缓冲 右 ROB 


(3) 保留 站 
保留 站 的 内 容 如 图 6.5 所 示 。 


| | 
mt lm 和 和 ll | | | | 


图 6.5 保留 站 


其 中 各 字段 的 名 称 和 意义 与 图 5.4 中 的 相同 。 不 过 ,这 里 增加 了 一 个 字段 : 目的 地 。 
它 指出 相应 部 件 的 运算 结果 要 暂时 存放 到 ROB 的 第 几 号 单元 。 
(4) Load 缓冲 骨 
Load 缓冲 回 的 内 容 如 图 6.6 所 示 , 它 按 队 列 方式 工作 ,每 次 处 理 新 的 访 存 都 是 从 队 
列 头 部 取 走 一 条 。 
Load 红 仲 器 


Bu | 


名 称 sy 
Loadl | Yes |2zl+R[FR3] | 机 
_ Load2 | Tes | 


Load2 | Yes | 
bad | Wm | | | | 


图 6.6 Load 缓冲 丹 


该 缓冲 船 各 字段 的 意义 如 下 : 
* 名 称 : 相应 单元 的 名 称 ; 
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4 Busy:“ 忙 ”标志 ,为 Yes 表示 已 被 占用 ; 
* 地 址 : 访 存 的 有 效 地 址 ; 
* 目的 地 : 指出 从 存储 融 庶 来 的 数据 要 和 暂时 存放 到 ROB 的 第 几 号 单元 ; 
4 值 ; 存放 从 存储 融 读 来 的 数据 。 
(5) 寄存 天 
寄存 器 的 内 容 如 图 6.7 所 示 。 
霖 存 器 国 
Es 
ROB 项 号 | i | | \ | 
or Ho ss | 了 No | 了 | | 了 Wo 


6.7 寄存 器 的 内 容 


该 缓冲 器 各 字段 的 意义 如 下 : 
* Busy:“ 忙 ”标志 ,为 Yes 表示 将 有 指令 要 对 该 寄存 带 写 人 数据 ; 
*。 ROB 项 号 : 指出 它 在 等 哪个 ROB 项 的 数据 , 当 那 个 ROB 项 中 的 指令 被 确认 且 其 
值 已 经 就 绕 时 ,那个 数据 将 被 写 入 该 寄存 旨 ; 
* 全: 寄存 大 的 信 。 
当 上 述 表 中 的 内 容 写 不 下 时 ,模拟 硕 会 采用 缩写 的 方法 。 这 时 ,在 屏 共 上 面 中 间 的 区 
域 中 会 显示 缩写 及 其 值 。 


6.5 相关 知识 : 再 定 序 缓冲 ROB 


对 于 多 流出 的 处 理 机 来 说 ,只 准确 地 预测 分 文 已 经 不 能 满足 要 求 了 ,因为 有 可 能 每 个 
时 钟 周 期 都 要 执行 一 条 分 文 指 令 。 探 制 相关 已 经 成 了 开发 更 多 ILP 的 一 个 主要 障碍 。 
前 瞻 执 行 能 很 好 地 解决 控制 相关 的 问题 , 它 对 分 支 指 令 的 结果 进行 猜测 ,并 假设 这 个 猜测 
总 是 对 的 ,然后 按 这 个 猜测 结果 继续 取 .流出 和 执行 后 续 的 指令 。 只 是 执行 指令 的 结果 不 
是 写 回 到 寄存 硕 或 存储 希 , 而 是 放 到 一 个 称 为 ROB 的 缓冲 硕 中 。 等 到 相应 的 指令 得 到 
“确认 ”( 即 确实 是 应 该 执行 的 ) 后 , 才 将 结果 写 入 寄存 器 或 存储 器 。 之 所 以 要 这 样 ,是 为 了 
在 猜测 错误 的 情况 下 能 够 恢复 原来 的 现场 ( 即 没 有 进行 不 可 恢复 的 写 操作 )。 

基于 硬件 的 前 瞻 执 行 是 把 三 种 思想 结合 在 了 一 起 : 

(1) 动态 分 文 预测 ,用 来 选择 后 续 执 行 的 指令 。 

(2) 在 控制 相关 的 结果 尚未 出 来 之 前 ,前 有 眶 地 执行 后 续 指 令 。 

(3) 用 动态 调度 对 基本 块 的 各 种 组 合 进 行路 基本 块 的 调度 。 

我 们 后 面 要 讨论 的 前 瞻 执 行 是 在 Tomasulo 算法 的 基础 上 实现 的 。PowerPC 603/ 
604/G3/G4, MIPS R10000/R12000, Intel Pentium TI/ 区 /4 ,Alpha 21264 和 AMD K5/ 
K6/Athlon 等 处 理 硕 中 实现 的 前 瞻 执 行 也 是 如 此 。 

对 Tomasulo 算法 加 以 扩充 ,就 可 以 文 持 前 瞻 执 行 。 当 然 ,硬件 也 需要 做 相应 的 扩 
展 。 在 Tomasulo 算法 中 , 写 结 果 和 指令 完成 是 一 起 在 “ 写 结 果 ” 段 完成 的 。 现 在 我 们 要 
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把 写 结 果 和 指令 完成 加 以 区 分 ,分 成 两 个 不 同 的 段 :“ 写 结果 ”和 “指令 确认 ”。“ 写 结果 ” 
段 是 把 前 脆 执 行 的 结果 瑟 到 ROB 中 ,并 通过 CDB 在 指令 之 间 传 送 结果 ,供需 要 用 到 这 些 
结果 的 指令 使 用 。 当 然 , 这 些 指 令 的 执行 也 是 前 脆 执 行 的 。“ 指 令 确认 ? 段 是 在 分 文 指 令 
的 结果 出 来 后 ,对 相应 指令 的 前 瞻 执 行 给 予 确认 ,把 在 ROB 中 的 结果 写 到 寄存 大 或 存储 
颖 ( 如 果 前 面 了 所 做 的 猜测 是 对 的 )。 当 然 , 如 果 发 现 前 面 对 分 文 结果 的 猜测 是 错误 的 , 那 就 
不 予以 确认 ,并 从 该 分 文 指令 的 另 一 条 路 径 开 始 重 新 执行 。 

前 瞻 执 行 允许 指令 乱 序 执行 ,但 要 求 按 程序 顺序 确认 。 并 且 在 指令 被 确认 之 前 ,不 人 允 
许 它 进行 不 可 恢复 的 操作 ,如 更 新 机 器 状态 或 发 生 异 和 常 。 

支持 前 有 瞻 执行 的 浮 点 部 件 的 结构 如 图 6. 8 所 示 , 与 图 5.7 相 比 ,主要 是 增加 了 一 个 
ROB 缓冲 需 。ROB 是 为 实现 前 瞻 执 行 而 设置 的 , 它 在 指令 操作 完成 后 到 指令 被 确认 这 
段 时 间 ,为 指令 保存 数据 。 正 在 前 瞻 执 行 的 指令 之 间 也 是 通过 ROB 传送 结果 的 ,因为 前 
有 瞻 执 行 的 指令 在 被 确认 前 是 不 能 写 寄存 器 的 。 由 于 ROB 与 图 5.7 中 的 store 缓冲 善 类 
似 , 这 里 把 store 缓冲 器 的 功能 合并 到 ROB 中 。 


load/store 操作 


地 址 部 件 


store 数据 


存储 部 件 浮 扣 加 法 梧 浮 点 乘法 带 


1 load 数据 | 公共 数据 总 线 (CDB) 


图 6.8 基于 Tomasulo 算法 的 支持 前 瞻 执 行 的 浮上 点 部 件 的 结构 


ROB 中 的 每 一 项 由 以 下 4 个 字段 组 成 : 

(1) 指令 类 型 : 指出 该 指令 是 分 文 指令 ,store 指令 或 宁 存 如 操作 指令 。 

(2) 目标 地 : 给 出 指令 执行 结果 应 写 和 人 的 目标 寄存 融 号 (如 果 是 load 和 ALU 指令 ) 
或 存储 表单 元 的 地 址 (如 果 是 store 指令 ) 。 

(3) 数据 值 字段 : 用 来 保存 指令 前 有 眶 执行 的 结果 ,和 耻 到 指令 得 到 确认 。 
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(4) 就 绪 字 有 段 : 指出 指令 是 否 已 经 完成 执行 并 且 数 据 已 就 绪 。 

在 前 瞻 执 行 机 制 中 ,Tomasulo 算法 中 保留 站 的 换 名 功能 是 由 ROB 来 完成 的 。 这 样 ， 
保留 站 的 作用 就 仅仅 是 在 指令 流出 到 指令 开始 执行 期 间 ,为 指令 保存 运算 操作 码 和 操作 
数 。 由 于 每 条 指令 在 被 确认 前 ,在 ROB 中 部 有 相应 的 一 项 ,对 执行 结果 是 用 ROB 的 项 
目 编号 作为 标识 ,而 不 像 Tomasulo 算法 那样 是 用 保留 站 的 编号 ,这 就 要 求 在 保留 站 中 记 
录 分 配给 该 指令 的 ROB 项 (编号 ) 。 

采用 前 上 执行 机 制 后 ,指令 的 执行 步骤 如 下 (请 注意 : 这 些 步 又 是 在 Tomasulo 算法 
的 基础 上 改造 的 ,与 Tomasulo 算法 类 似 的 操作 我 们 就 不 予以 说 明了 ) 。 

(1) 流出 

从 浮 点 指令 队列 的 头 部 取 一 条 指令 ,如果 有 空闲 的 保留 站 ( 设 为 rz) 且 有 空闲 的 ROB 
项 ( 设 为 b) ,就 流出 该 指令 ,并 把 相应 的 信息 放 人 保留 站 rr 和 了 ROB 项 b。 即 : 如 果 该 指令 
需要 的 操作 数 已 经 在 寄存 需 或 人 OB 中 就 绪 ,就 把 它 ( 们 ) 送 入 保留 站 rz 中 。 修 改 r 和 bb 的 
控制 字段 ,表示 它们 已 经 被 占用 。ROB 项 b 的 编号 也 要 放 人 保留 站 r, 以 便 将 来 当 该 保留 
站 的 执行 结果 被 放 到 CDB 上 时 可 以 用 它 作 为 标识 。 如 果 保 留 站 或 ROB 全 满 , 便 停 止 流 
出 指令 ,直到 它们 都 有 空闲 的 项 。 

(2) 执行 

如 果 有 操作 数 尚未 就 绪 ,就 等 待 ,并 不 断 地 监测 CDB。 这 一 步 检 测 RAW 冲突 , 当 两 
个 操作 数 都 已 在 保留 站 中 就 绪 后 ,就 可 以 执行 该 指令 的 操作 。load 指令 的 操作 还 ue 
步 完 成 (有 效 地 址 计算 和 读 取 数据 ) ,store 指令 在 这 一 步 只 进行 有 效 地 址 计算 。 

(3) 写 结 果 

当 结 果 产 生 后 ,将 该 结果 连同 本 指令 在 流出 段 所 分 配 到 的 人 ROB 项 的 编号 放 到 CDB 
上 ,经 CDB 与 到 ROB 以 及 所 有 等 待 该 结果 的 保留 站 ,然后 释放 产生 该 结果 的 保留 站 。 
store 指令 在 本 阶段 完成 ,其 操作 有 些 特殊 (与 Tomasulo 算法 不 同 ): 如 条 要 写 人 存储 天 
的 数据 已 经 就 绪 , 就 把 该 数据 写 人 分 配给 该 store 指令 的 ROB 项 ; 否则 ,就 监测 CDB, 直 
到 那个 数据 在 CDB 上 播送 出 来 ,这 时 才 将 之 写 入 分 配给 该 store 指令 的 ROB 项 。 

(4) 确认 

这 一 阶段 对 分 文 指 令 、store 指令 以 及 其 他 指令 的 处 理 不 同 : 

QD 对 于 除 分 文 指 令 和 store 指令 以 外 的 指令 来 说 , 当 该 指令 到 达 ROB 队列 的 头 部 而 

日 其 结果 已 乡 就 绪 时 ,就 把 该 结果 写 人 该 指令 的 目标 寄存 器 ,并 从 ROB 中 删除 该 指令 。 

名 对 store 指令 的 处 理 与 由 类 似 , 只 是 它 是 把 结果 写 入 存储 疾 。 

GB) 当 预 测 错误 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,就 表示 是 错误 的 前 瞻 执 行 。 这 
时 要 清空 ROB ,并 从 分 文 指令 的 另 一 个 分 文 重新 开始 执行 。 

@ 当 预 测 正确 的 分 支 指 令 到 达 ROB 队列 的 头 部 时 ,该 指令 执行 完毕 。 

日 指 令 得 到 确认 ,就 释放 它 所 占用 的 ROB 项 。 当 ROB 满 时 ,就 停止 指令 的 流出 ， 
直到 有 空闲 项 被 释放 出 来 。 


实验 7 多 Cache 一 致 性 一 一 监 听 协 议 


7.1 实验 目的 


(1) 0 Cache 一 致 性 的 理解 。 

(2) 进一步 掌握 解决 多 Cache 一 致 性 的 监听 协议 的 基本 思想 。 

(3) 和 擎 握 在 各 种 情况 下 ,监听 协议 是 如 何 工 作 的 ,能 给 出 要 进行 什么 样 的 操作 以 及 状 
态 的 变化 情况 。 


7.2 实验 平台 


实验 平台 采用 多 Cache 一 致 性 监听 协议 模拟 器 。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

微 信 公众 号 : Arch365 

请 扫 摘 以 下 二 维 码 , 单 击 关 注 后 , 按 提示 操作 。 


7.3 实验 内 容 和 步骤 


自 先 要 向 握 该 模拟 兹 的 使 用 方法 ( 见 7.4 市 )。 
(1) 对 于 以 下 访问 序列 , 写 出 监听 协议 所 进行 的 操作 。 
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所 进行 的 访问 是 否 发 生 蔡 换 | 是 否 发 生 写 回 监听 协议 所 进行 的 操作 
CPU A 读 第 5 块 
CPU B 读 第 5 块 
CPU C 读 第 5 块 
CPU B 写 第 5 块 
CPU DD 读 第 5 块 
CPU B 写 第 21 志 | 
CPU A 写 第 23 区 和 
CPU C 写 第 23 决 | 
CPU B 读 第 29 块 | 
CPU B 写 第 5 块 | 


监听 协议 所 进行 的 操作 


(3) 根据 上 述 结果 , 画 出 相关 的 状态 转换 图 。 


7.4 监听 协议 模拟 天 使 用 方法 


该 模拟 器 模拟 4 个 CPU (A、B、.C.D) 访 存 的 工作 过 程 。 每 个 CPU 中 都 有 一 个 
Cache, 该 Cache 包含 4 个 块 , 其 块 地 址 为 0 一 3。 集 中 共享 存储 枯 中 有 32 个 块 ,其 块 地 址 
为 0~~31。 每 个 块 的 状态 用 色 块 来 表示 ,其 中 灰色 表示 “无 效 ” 状 态 , 淡 青色 表示 “ 共 圣 ”， 
桶 红色 表示 "独占 ”。 

对 于 每 个 CPU ,可 以 指定 所 要 进行 的 访问 是 读 还 是 写 ( 从 列表 中 选 ), 并 在 输入 框 中 
输入 所 要 访问 的 主 存 块 号 ,然后 单 击 在 其 右边 的 标 有 v 的 按钮 ,模拟 需 就 将 开始 演示 该 访 
问 的 工作 过 程 。 

该 模拟 妖 的 主 菜 单 有 4 个 : 配置 .控制 .统计 、 带 助 。 
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1. 配 直 


该 采 单 用 于 进行 配置 参数 的 显示 与 设置 。 你 可 以 修改 动画 播放 速度 ,把 游标 往 右 边 
拖 搜 可 提高 播放 速度 , 往 左边 拖 搜 可 降低 播放 速度 。 你 还 可 以 选择 是 否 进行 优化 传 块 , 优 
化 传 块 是 指 当 要 访问 的 块 在 某 个 Cache 中 , 且 处 于 独占 状态 时 ,可 以 不 用 等 该 块 写 回 主 存 
后 再 从 主 存 调 块 ,而 可 以 卫 接 将 该 块 传送 给 发 出 访问 请 求 的 结 扣 。 

本 模拟 副 采 用 和 卫 接 映像 方法 和 写 回 法 。 


2. 控制 


可 以 通过 该 全 单 中 的 选项 来 控制 模拟 豆 的 执行 。 该 们 单 下 有 以 下 3 个 选项 : 单 步 执 
行 .连续 执行 .复位 。 

(1) 单 步 执行 

选用 该 方式 后 , 单 击 眼 标 左 键 或 单 击 左 上 角 的 “ 步 进 ”按钮 ,都 会 使 模拟 天 前 进一步 。 

(2) 连续 执行 

选用 该 方式 后 , 单 击 标 有 的 按钮 ,模拟 器 会 连续 演示 一 次 访 存 的 整个 过 程 , 直 至 该 


访问 结束 。 
(3) 复位 


使 模拟 器 复位 , 回 到 初始 状态 。 
也 可 以 通过 单 击 窗口 内 左上 角 的 选项 和 按钮 来 控制 模拟 器 的 执行 ,其 功能 与 上 述 菜 
单 选项 相同 ， 


3. 统计 


该 菜单 用 于 显示 模拟 器 的 统计 结果 ,包括 各 处 理 机 的 访问 次 数 、 命 中 次 数 . 不 命中 次 
数 以 及 命中 率 。 


4. 帮助 
该 亲 单 下 有 “关于 ”和 “使 用 说 明 ” 两 个 选项 。 


7.5 相关 知识 : 监听 协议 


7.5.1 基本 思想 


监 昕 式 协议 一 一 当 物 理 存储 副 中 的 数据 块 被 央 入 Cache 时 ,其 共 圣 状态 信息 与 该 数 
据 块 一 起 放 在 该 Cache 中 。 系 统 中 没有 集中 的 状态 表 , 这 些 Cache 通常 连 在 共 于 存储 胡 
的 总 线 上 。 当 茶 个 Cache 需要 访问 存储 融 时 , 它 会 把 请 求 放 到 总 线 上 广播 出 去 ,其 他 各 个 
Cache 控制 硕 通 过 监听 总 线 ( 它 们 一 直 在 监听 ) 来 判断 它们 是 否 有 总 线 上 请 求 的 数据 块 。 
如 来 有 ,就 进行 相应 的 操作 。 
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在 使 用 多 个 微 处 理 豆 , 且 每 个 Cache 部 与 单一 共 圣 存储 大 相 连 组 成 的 多 处 理 机 中 ,一 
般 痢 采用 监听 协议 ,因为 这 种 协议 可 直接 利用 已 有 的 物理 连接 (连接 到 存储 表 的 总 线 ) 。 

可 以 采用 两 种 方法 来 解决 上 述 的 Cache 一 致 性 问题 。 一 种 方法 是 保证 : 在 处 理 套 对 
某 个 数据 项 进行 瑟 入 之 前 , 它 拥有 对 该 数据 项 的 唯一 的 访问 权 。 共 体 做 法 是 在 处 理 冀 ( 设 
为 P) 进 行 写 入 操作 之 前 ,把 所 有 其 他 Cache 中 的 副本 全 部 作废 ,这 称 为 写作 废 协议 。 它 
是 目前 最 向 用 的 协议 ,无论 是 及 用 监听 协议 还 是 来 用 目录 协议 者 是 如 此 。 唯 一 的 访问 权 
保证 了 在 进行 写 人 操作 时 其 他 处 理 太 上 不 存在 任何 副本 。 如 休 其 他 处 理 带 接着 要 访问 该 
数据 ,就 会 产生 不 命中 ,从 而 从 存储 副 取 出 新 的 数据 副本 ( 写 了 且 达 法 ), 或 者 从 PP 的 Cache 
中 获得 新 的 数据 ( 写 回 法 )。 为 外 一 种 方法 是 采用 与 更 新 协议 。 在 这 种 协议 中 , 当 一 个 处 
理 盘 对 匠 数 据 项 进行 号 入 时 , 它 把 该 新 数据 广播 给 有 所 有 其 他 Cache。 这 些 Cache 用 该 新 
数据 对 其 中 的 副本 (如 末 有 的 话 ) 进 行 更 新 。 当 然 ,如 来 知 站 其 他 Cache 中 部 没有 相应 的 
副本 , 束 不 必 进 行 三 播 和 更 新 。 这 样 处 理 能 够 减少 实现 该 协议 所 需 的 市 宽 。 


7.5.2 监听 协议 的 实现 


1. 监听 协议 的 基本 实现 技术 


实现 监听 协议 的 关键 有 3 个 方面 : 

(1) 处 理 兹 之 间 通 过 一 个 可 以 实现 广播 的 互 连 机 制 相连 ,通常 采用 的 是 总 线 。 

(2) 当 一 个 处 理 器 的 Cache 响应 本 地 CPU 的 访问 时 ,如 果 它 涉及 全 局 操作 ,例如 需 
要 访问 共享 的 存储 硕 或 需要 其 他 处 理 硕 中 的 Cache 进行 相应 的 操作 (例如 作废 等 ), 其 
Cache 控制 冀 就 要 在 获得 总 线 的 控制 权 后 ,在 总 线 上 发 出 相应 的 清晨。 

(3) 所 有 处 理 硕 都 一 直 在 监听 总 线 , 它 们 检测 总 线 上 的 地 址 在 它们 的 Cache 中 是 否 
有 副本 。 奋 有 , 则 啊 应 该 消息 ,并 进行 相应 的 操作 。 

获取 总 线 控 制 权 的 顺序 性 保证 了 写 操 作 的 串 行 化 ,因为 当 两 个 处 理 硕 要 同时 对 同一 
数据 块 进行 写 操 作 时 ,必然 是 只 有 其 中 一 个 处 理 器 先 获得 总 线 控制 权 , 并 作废 所 有 其 他 处 
理 硕 上 的 相关 副本 , 另 一 处 理 希 要 等 待 前 一 个 处 理 硕 的 写 操 作 完 成 后 ,再 排队 竞争 总 线 控 
制 权 。 这 保证 了 写 操 作 严 格 地 按 顺 序 进行 。 所 有 的 一 致 性 协议 都 要 采用 某 种 方法 来 保证 
对 同一 个 Cache 块 的 写 访 问 的 串 行 化 。 

虽然 不 同 的 监听 协议 在 具体 实现 上 有 些 差别 ,但 在 许多 方面 是 相同 的 。Cache 发 送 
到 总 线 上 的 消息 主要 有 以 下 两 种 : 

。RdMiss 一 一 读 不 命中 

。 WtMiss 一 一 写 不 命中 

RdMiss 和 WtMiss 分 别 表示 本 地 CPU 对 Cache 进行 读 访问 和 写 访 问 时 不 命中 ,这 
时 都 需要 通过 总 线 找到 相应 数据 块 的 最 新 副本 ,然后 调 入 本 地 Cache 中 。 尽 管 这 个 副本 
不 一 定 在 存储 硕 中 ,但 为 了 尽快 获得 这 个 副本 ,一 般 是 马上 局 动 对 存储 硕 相 关 块 的 访问 。 
对 于 写 且 达 Cache 来 说 ,由 于 所 有 与 人 的 数据 都 同时 被 与 回 人 存储 带 , 所 以 其 最 新 信息 可 以 
从 存储 硕 中 找到 。 而 对 于 与 回 法 Cache 来 说 ,难度 就 大 一 些 了 ,因为 这 个 最 新 副本 有 可 能 
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是 在 其 他 某 个 处 理 器 的 Cache 中 (尚未 写 回 存储 器 )。 在 这 种 情况 下 ,将 由 该 Cache hy 
求 方 处 理 器 提供 该 块 ,并 终止 由 RdMiss 或 WtMiss 所 引发 的 对 存储 器 的 访问 。 当 
RdMiss 和 WtMiss 还 将 使 相关 Cache 块 的 状态 发 生 改 变 。 

有 的 监听 协议 还 增设 了 一 条 Invalidate 消 奶 ,用 来 通知 其 他 各 人 处理 大 作废 其 Cache 
中 相应 的 副本 。Invalidate 和 WtMiss 的 区 别 在 于 Invalidate 不 引起 调 块 。 

每 个 处 理 器 (实际 上 是 Cache 控制 器 ) 都 监听 其 他 处 理 器 放 到 总 线 上 的 地 址 ,如 果 某 
个 人 处理 如 发 现 它 拥有 被 请 求 数据 块 的 一 个 最 新 副本 , 它 就 把 这 个 数据 块 送 给 发 出 请 求 的 
处 理 器 。 与 写 直达 法 相 比 ,尽管 写 回 法 在 实现 的 复杂 度 上 有 所 增加 ,但 由 于 写 回 法 Cache 

所 需 的 存储 右 带 宽 较 低 , 它 在 多 处 理 机 实现 上 仍 很 受 欢迎 。 在 后 面 的 讨论 中 ,只 考虑 写 
关 Cache, 

Cache 本 来 就 有 的 标识 可 直接 用 来 实现 监听 。 通 过 把 总 线 上 的 地 址 和 Cache 内 的 标 
识 进行 比较 ,就 能 找到 相应 的 Cache 块 (如 果 有 的 话 ) ,然后 对 其 进行 相应 的 处 理 。 每 个 块 
的 有 效 位 使 得 我 们 能 很 容易 地 实现 作废 机 制 。 当 要 作废 一 个 块 时 ,只 需 将 其 有 效 位 置 为 
无 效 即 可 。 对 于 CPU 读 不 命中 的 情况 ,处 理 比较 简单 ,Cache 控制 硕 回 总 线 发 人 dMiss 请 
息 ,并 启动 从 主 存 的 读 块 操作 ,准备 调和 人 Cache。 当 然 ,如 果 存 储 器 中 的 块 不 是 最 新 的 ,最 
新 的 副本 是 在 某 个 Cache 中 ,就 要 由 该 Cache 提供 数据 ,并 终止 对 存储 大 的 访问 。 

对 于 写 操作 来 说 ,希望 能 够 知道 其 他 处 理 右 中 是 否 有 该 写 入 数据 的 副本 ,因为 如 果 没 
有 ,就 不 用 把 这 个 写 操作 放 到 总 线 上 ， iota hea lip 
间 。 这 可 以 通过 给 每 个 Cache 坎 增 设 一 个 共享 位 来 实现 。 该 共享 位 用 来 表示 该 块 是 被 多 
个 处 理 需 所 共享 (共享 位 为 “1”) ， 还 是 仅 被 某 个 处 理 硕 所 独占 (共享 位 为 “02)。 拥 有 该 数 
据 块 的 唯一 副本 的 处 理 需 通常 被 称 为 该 块 的 拥有 者 。 

当 一 个 块 处 于 独占 状态 时 ,其 他 处 理 大 中 没有 该 块 的 副本 ,因此 不 必 回 总 线 发 
Invalidate 消息 。 否 则 就 是 处 于 共享 状态 ,这 时 要 向 总 线 发 Invalidate 消息 ,作废 所 有 其 
他 Cache 中 的 副本 ,同时 将 本 地 Cache 中 该 块 的 共享 标志 位 置 “0”。 如 果 后 面 又 有 另 -处 
理 需 再 谈 这 个 块 , 则 其 状态 将 再 次 转化 为 共享 。 由 于 每 个 Cache 都 在 监听 总 线 上 的 消息 ， 
所 以 它们 知道 什么 时 候 男 一 个 处 理 颖 请 求 访问 该 块 ,从 而 把 其 状态 改 为 共享 。 


2. 监听 协议 举例 


实现 监听 协议 通 篆 是 在 每 个 结 点 内 租 人 一 个 有 限 状 态 控 制 磊 。 该 控制 右 根 据 来 自 处 
理 需 或 总 线 的 请 求 以 及 Cache 块 的 状态 ,做 出 相应 的 啊 应 。 包 括 改 变 所 选择 的 Cache 块 
的 状态 ,通过 总 线 访 问 存 储 带 ,或 者 作废 Cache 块 等 。 

下 面 要 介绍 的 监听 协议 实例 比较 简单 。 每 个 数据 块 的 状态 只 能 取 以 下 3 种 状态 中 的 一 种 : 

(1) 无 效 ( 侧 称 1 ) : 表示 Cache 中 该 块 的 内 容 为 无 效 。 显 然 , 所 要 访问 的 块 疝 未 进入 
Lache。 

(2) 共享 (简称 S): 表示 该 块 可 能 处 于 共享 状态 , 即 在 多 个 (三 2) 处 理 需 中 都 有 副本 。 
这 些 副 本 都 相同 ,是 与 存储 器 中 相应 的 块 相 同 。 之 所 以 说 可 能 ,是 因为 它 包 含 了 这 种 特殊 
情况 : 在 整个 系统 中 ,该 块 只 在 一 个 Cache 中 有 副本 ,而 且 该 副本 与 存储 器 中 相应 的 块 相同 ， 
对 处 于 共享 状态 的 块 只 能 进行 读 操作 。 如 果 要 进行 写 操 作 , 就 要 先 把 其 状态 改 为 “已 修改 ”。 
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(3) 已 修改 (简称 M) : 表示 该 块 已 经 被 修改 过 ,并 且 还 没 瑟 人 存储 右 。 这 时 该 块 中 
的 内 容 是 最 新 的 ,而 且 是 整个 系统 中 唯一 的 最 新 副本 。 处 于 已 修改 状态 的 块 由 本 地 处 理 
器 所 独占 ,该 处 理 兹 不 仅 可 以 对 它 进行 读 操 作 , 而 且 可 以 对 它 进行 写 操作 。 

下 面 来 讨论 在 各 种 情况 下 监听 协议 所 进行 的 操作 。 


1. 响应 来 自 处 理 器 的 请 求 


对 不 发 生 替 换 和 发 生 替 换 的 两 种 情况 分 别 进行 讨论 。 
(1) 不 发 生 符 换 的 情况 ,参见 图 7. 1(Ca) 。 


CPU 写 命中 /发 Invalidate 


CPU 该 命中 


CPU 读 命中 
CPU 写 命中 


CPU 写 /发 WtMiss CPU 读 /发 RdMiss 


[: 无 效 (Invalid) 
S: 共享 (Shared) ， 只 读 
M : 已 修改 (Modified) ， 可 读 写 


(a) 一 般 CPU 访 问 的 情况 及 操作 


CPU 写 不 命中 / 写 回 CPU 读 不 命中 / 写 回 ,发 RdMiss CPU 读 不 命中 / 
WtMiss A 改 RdMiss 


CPU 写 不 命中 /发 WtMiss 
(b) 发 生 蔡 换 的 情况 及 操作 
7.1 写作 废 协议 中 (采用 写 回 法 ) ,Cache 块 的 状态 转换 图 工 : 响应 来 自 CPU 的 请 求 


由 状态 为 

在 这 种 情况 下 的 操作 与 单 Cache 中 的 情况 类 似 。 

3 CPU 要 进行 谈 访 问 时 * 由 于 所 要 访问 的 块 尚 未 调和 Cache, 所 以 发 生 读 不 命中 ; 需 
要 回 总 线 必 RdMiss 消 上 中 。 调 入 该 块 后 ,把 其 状态 改 为 共 圣 (S)。 这 时 该 数据 块 在 Cache 
中 有 唯一 的 一 个 副本 , 且 该 副本 与 存储 融 中 的 相应 内 容 相 同 。 

当 CPU 要 进行 写 访 问 时 ,由 于 所 要 访问 的 块 疝 未 调和 人 Cache, 有 所 以 发 生 写 不 命中 , 需 
要 回 总 线 发 WtMiss 消息。 调和 该 块 后 ,将 其 状态 改 为 已 修改 (M)。 这 时 该 数据 块 在 
Cache 中 有 唯一 的 一 个 副本 (最 新 ), 且 该 副本 与 存储 希 中 的 相应 内 容 不 同 。 存 储 硕 中 的 
内 容 已 过 时 。 

( 状态 为 S 

当 CPU 要 进行 读 访 问 时 ,如 果 命 中 , 则 状态 不 变 。 否 则 就 需要 进行 蔡 换 。 这 种 情况 
后 面 再 讨论 。 
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当 CPU 要 进行 写 访问 时 , 需 先 把 Cache 中 相应 块 的 状态 改 为 已 修改 M, 然 后 再 把 数 
据 写 人 ,同时 要 作废 所 有 其 他 Cache 中 的 副本 。 在 命中 的 情 况 下 ,无 需 调 块 ,只 要 回 总 线 
发 Invalidate 请 奶 即 可 。 如 果 不 命 中 ,就 需要 进行 瞧 换 ,这 种 情况 后 面 壬 讨论 。 

(3) 状态 为 M 

在 这 种 状态 下 , 当 Cache 读 命 中 或 写 命 中 时 ,状态 不 变 。 但 当 不 命中 时 ,就 需要 进行 
蔡 换 ,这 种 情况 后 面 再 讨论 。 

(2) 发 生 符 换 的 情况 

当 CPU 访问 Cache 不 命中 ,而 按 映 像 规则 所 映射 到 的 块 或 组 中 已 经 没有 空闲 块 ( 状 
态 为 D) 的 时 候 , 就 要 进行 蔡 换 。 这 时 就 根据 蔡 换 算法 在 Cache 中 选择 一 个 块 作为 被 符 换 
的 块 ,该 块 的 内 容 将 被 新 调 入 的 块 所 替换 。 图 7.1(b) 给 出 了 在 发 生 替换 情况 下 的 状态 转 

中 状态 为 S 

当 发 生 读 不 命中 时 ,就 向 总 线 发 RdMiss, 调 和 人 一 个 新 块 并 替换 原来 的 块 , 并 且 该 
Cache 块 的 状态 不 用 改变 ,因为 处 理 需 是 进行 读 访 问 。 

当 发 生 写 不 命中 时 ,就 向 总 线 发 WtMiss, 也 是 调 人 一 个 新 块 并 替换 原来 的 块 , 但 要 
把 该 块 的 状态 改 为 M, 这 是 因为 处 理 需 是 进行 与 访问。 

四 状态 为 M 

这 种 情况 与 类 似 , 只 是 在 写 不 命中 时 ,Cache 块 的 状态 不 用 改变 ,而 在 读 不 命中 时 ， 
要 把 状态 改 为 S。 此 外 ,还 有 关键 的 一 点 ,就 是 在 该 块 被 蔡 换 之 前 ,需要 将 其 中 的 内 容 先 
写 回 存储 器 ,这 是 因为 该 块 是 整个 系统 中 唯一 的 最 新 副本 。 


2. 响应 来 自 总 线 的 请 求 


每 个 处 理 融 都 在 监视 总 线 上 的 销 息 和 地 址 , 当 发 现 有 与 总 线 上 的 地 址 相 匹 配 的 

Cache 块 时 ,就 要 根据 该 块 的 状态 以 及 总 线 上 的 消息 ,进行 相应 的 处 理 , 参 见 图 7. 2。 

(1) 状态 为 S 

这 种 状态 表示 该 块 是 一 个 只 读 副 本 。 当 远程 处 理 冀 (相对 于 本 地 处 理 兹 而 言 ) 因 进行 
读 访问 不 命中 而 在 总 线 上 发 RdMiss 时 ,由 于 调 块 后 不 对 该 块 进行 写 操 作 , 所 以 本 地 
Cache 中 该 块 的 状态 不 变 。 但 如 果 和 远程 结 点 是 因为 要 进行 瑟 操 作 而 往 总 线 上 发 WtMiss 
或 Invalidate 消息 , 则 需要 作废 本 地 Cache 中 的 该 块 ,将 其 状态 改 为 工 

(2) 状态 为 M 

这 种 状态 表示 该 块 是 整个 系统 中 唯一 的 最 新 副本 。 不 管 和 还 程 处 理 关 发 的 是 RdMiss 
还 是 WtMiss ,本 Cache 都 需要 将 这 个 唯一 的 副本 写 回 存储 豆 ,并 终止 RdMiss 或 WtMiss 
引发 的 对 存储 融 的 访问 , 改 由 本 Cache 提供 该 块 。 在 状态 方面 , RdMiss 将 导致 本 地 
Cache 下 S, 即 该 块 也 变 成 一 个 只 旋 的 共享 块 ; 而 WtMiss 则 将 其 状态 修 
改 为 I, 将 之 作废 。 这 是 因为 远程 处 理 冀 需要 的 是 一 个 独占 的 块 。 

在 上 述 协 议 中 假设 操作 具有 原子 性 , 即 其 操作 进行 过 程 中 不 能 被 打 呈 ,例如 将 写 不 命 
中 的 检测 .申请 总 线 和 接收 啊 应 作为 一 个 单独 的 原子 操作 ,但 在 实际 中 的 情况 会 比 这 复 末 
得 多 。 
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RdMiss/ 写 回 ,终止 对 存储 器 的 访问 


WtMiss/ 写 回 ， 
终止 对 存储 项 的 访问 、 


~ Invalidate 


图 7.2 写作 废 协议 中 (采用 写 回 法 ) ,Cache 块 的 状态 转换 图 工 : 响应 来 自 总 线 的 请 求 
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8.1 实验 目的 


(1) 加 深 对 多 Cache 一 致 性 的 理解 。 

(2) 进一步 掌握 解决 多 Cache 一 致 性 的 目录 协议 的 基本 思想 。 

(3) 掌握 在 各 种 情况 下 ,目录 协议 是 如 何 工作 的 ,能 给 出 要 进行 什么 样 的 操作 以 及 状 
态 的 变化 情况 。 


8.2 实验 平台 


实验 平台 采用 多 Cache 一 致 性 目录 协议 模拟 硕 。 
设计 : 张晨曦 教授 ,版 权 所 有 。 

下 载 地 址 : 

短信 公众 号 : Arch365 

请 扫 拉 以 下 二 维 码 , 单 击 关 注 后 , 按 提示 操作 。 


8.3 实验 内 容 和 步骤 


首 和 要 笔 握 该 模拟 套 的 使 用 方法 ( 见 8. 4 市 )。 
(1) 对 于 以 下 访问 序列 ,与 出 目录 协议 所 进行 的 操作 。 
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所 进行 的 访问 目录 协议 所 进行 的 操作 
CPU A 读 第 6 块 
CPU B 读 第 6 块 
CPU D 读 第 6 块 
CPU B 写 第 6 块 
CPU C 读 第 6 块 
CPU D 写 第 20 块 
CPU A 写 第 20 块 
CPU DD 写 第 6 块 
CPU A 读 第 12 块 


(2) 目 己 编写 一 个 访问 序列 , 写 出 目录 协议 所 进行 的 操作 。 


所 进行 的 访问 是 否 发 生 蔡 换 | 是 否 发 生 写 回 目录 协议 所 进行 的 操作 


(3) 根据 上 述 结果 , 画 出 相关 的 状态 转换 图 ( 仅 画 出 与 上 表 相关 的 部 分 )。 
8.4 目录 协议 模拟 希 使 用 方法 


该 模拟 器 模拟 4 个 CPU(A、B、C、D) 访 存 的 工作 过 程 。 每 个 CPU 中 都 有 一 个 
Cache, 该 Cache 包含 4 个 块 ,其 块 地 址 为 0 一 3。 分 布 式 存储 器 中 有 32 个 块 , 其 块 地 址 为 
0 一 31。Cache 中 每 个 块 的 状态 用 色 块 来 表示 ,其 中 灰色 表示 “无 效 ” 状 态 , 淡 青色 表示 “ 共 
享 ”, 权 红色 表示 “独占 ”。 主 存 中 块 的 状态 由 其 右边 的 目录 项 的 颜色 来 表示 ,未 缓冲 状态 
由 黄色 来 表示 ,其 他 两 种 状态 同 Cache 块 。 

对 于 每 个 CPU ,可 以 指定 所 要 进行 的 访问 是 读 还 是 写 ( 从 列表 中 选 ) ,并 在 输入 框 中 
输入 所 要 访问 的 主 存 块 号 ,然后 单 击 在 其 右边 的 标 有 v 的 按钮 ,模拟 器 就 开始 演示 该 访问 
的 工作 过 程 。 

该 模拟 器 的 主 菜单 有 4 个 : 配置 操作 ,统计 帮助。 
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1. 配置 


该 玉音 用 于 进行 配置 参数 的 显示 与 设置 。 你 可 以 修改 动画 播放 速度 ,把 游标 往 右 边 
拖 搜 可 提高 播放 速度 , 往 左 边 拖 搜 可 降低 播放 速度 。 你 还 可 以 选择 是 否 进行 优化 传 块 , 优 
化 传 块 是 指 当 要 访问 的 块 在 某 个 Cache 中 , 且 处 于 独占 状态 时 ,可 以 不 用 等 该 块 与 回 主 存 
后 再 从 主 存 调 块 ,而 是 可 以 下 接 将 该 块 传送 给 发 出 访问 请 求 的 结 点 。 

本 模拟 龙 采 用 和 卫 接 映像 方法 和 与 回 法 。 


2. 操作 


可 以 通过 该 亲 单 中 的 选项 来 控制 模拟 颖 的 执行 。 该 洒 单 下 有 以 下 3 个 选项 : 单 步 执 
行 .连续 执行 、 复 位。 

(1) 单 步 执行 

选用 该 方式 后 , 敲 任意 键 . 单 击 眼 标 左 键 或 单 击 左上 角 的 " 步 进 ? 按 钮 ,都 会 使 模拟 需 
前 进一步 。 

(2) 连续 执行 

选用 该 方式 后 , 单 击 标 有 v 的 按钮 ,模拟 器 会 连续 演示 一 次 访 存 的 整个 过 程 , 直 至 该 
访问 结束 。 

(3) 复位 

使 模拟 需 复 位 , 回 到 初始 状态 。 


3. 统计 

该 菜单 用 于 显示 模拟 器 的 统计 结果 ,包括 各 处 理 机 的 访问 次 数 、 命 中 次 数 . 不 命中 次 
数 以 及 命中 率 。 

4. 帮助 

该 菜单 下 有 “关于 ”和 “使 用 说 明 ” 两 个 选项 。 


8.5 相关 知识 : 目录 协议 


8.5.1 目录 协议 的 基本 思想 


目录 协议 采用 了 一 个 集中 的 数据 结构 一 一 目录 来 实现 Cache 一 致 性 。 对 于 存储 器 中 
的 每 一 个 可 以 调 人 Cache 的 数据 块 ,在 目录 中 设置 一 条 目录 项 ,用 于 记录 该 块 的 状态 以 及 
哪些 Cache 中 有 副本 等 相关 信息 。 这 样 ,对 于 任何 一 个 数据 块 , 都 可 以 快速 地 在 唯一 的 一 
个 位 置 (根据 该 存储 块 的 地 址 来 确定 ) 中 找到 相关 的 信息 ,这 使 得 目录 协议 避免 了 广播 
操作 。 

目录 法 常 采用 位 向 量 的 方法 来 记录 哪些 Cache 中 有 副本 ,该 位 向 量 中 的 每 一 位 对 应 
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于 一 个 处 理 需 。 例 如 可 以 用 1? 表示 相应 的 处 理 器 的 Cache 有 副本 ,用 “0” 表 示 没 有 副本 。 
这 个 位 癌 量 的 长 度 与 处 理 器 的 个 数 成 正比 。 为 便于 讨论 ,后 面 我 们 将 把 由 位 癌 量 指定 的 
处 理 机 的 集合 称 为 共享 集 S。 

目录 协议 根据 该 项 目 中 的 信息 以 及 当前 要 进行 的 访问 操作 ,依次 对 相应 的 Cache 发 
送 控 制 消息 ,并 完成 对 目录 项 信息 的 修改 。 此 外 ,还 要 问 请 求 处 理 带 发 送 啊 应 信息 。 

为 了 提高 可 扩 放 性 ,可 以 把 存储 器 及 相应 的 日 录 信 息 分 布 到 各 结 点 中 ,如 图 8.1 所 
示 。 每 个 结 点 的 目录 中 的 信息 是 对 应 于 该 结 点 存储 器 中 的 数据 块 的 。 这 使 得 对 于 不 同 目 
录 项 的 访问 可 以 在 不 同 的 结 点 中 并 行进 行 。 当 处 理 器 进行 访 存 操作 时 ,如 果 该 地 址 落 在 
本 地 存储 器 的 地 址 范围 中 ,就 是 本 地 的 ,否则 就 是 远程 的 ,这 是 由 结 点 内 的 控制 器 根据 访 
问 地 址 来 判定 的 。 


/CpUO 
\Cache 


互连网 络 


存储 器 存储 器 [le 


多 名 
‘Cache le 
图 8.1 对 每 个 结 点 增加 目录 后 的 分 布 式 存储 器 多 处 理 机 


对 于 目录 法 来 说 ,最 简单 的 实现 方案 是 对 于 存储 器 中 每 一 块 都 在 目录 中 设置 一 项 
在 这 种 情况 下 ,目录 中 的 信息 量 与 MXN 成 正比 。 其 中 M 表示 存储 器 中 存储 块 的 总 数 
量 ,N 表示 处 理 需 的 个 数 。 

在 目录 协议 中 ,存储 块 的 状态 有 以 下 3 种 : 

(1) 未 缓冲 一 一 该 块 尚未 被 调 人 Cache, 所 有 处 理 需 的 Cache 中 都 没有 这 个 块 的 副本 。 

(2) 共享 一 一 该 块 在 一 个 或 多 个 处 理 机 上 有 这 个 块 的 副本 , 且 这 些 副 本 与 存储 融 中 
的 该 块 相同 。 

(3) 独占 一 一 仅 有 一 个 处 理 机 有 这 个 块 的 副本 , 且 该 处 理 机 已 经 对 其 进行 了 写 操作 ， 
所 以 其 内 容 是 最 新 的 ,而 存储 希 中 该 块 的 数据 已 过 时 ,这 个 处 理 机 称 为 该 块 的 拥有 者 。 

为 了 提高 实现 效率 ,在 每 个 Cache 中 还 跟踪 记录 每 个 Cache 块 的 状态 。 

在 目录 法 中 ,每 个 Cache 中 的 Cache 块 的 状态 及 其 转换 与 前 面 监 听 法 的 情况 相同 ,只 
是 在 状态 转换 时 所 进行 的 操作 有 些 不 同 。 


ma 
寺 
5 
mn 
豆 
引 i 


图 8. 2 是 用 来 说 明 本 地 结 点 宿主 结 点 以 及 远程 结 eprint 的 示意 图 。 
本 地 结 点 是 指 发 出 访问 请 求 的 结 点 (图 8. 2 中 的 A)。 该 结 点 中 的 处 理 机 P 发 出 了 一 个 地 


址 为 KK 的 访 存 请 求 。 答 主 结 点 是 指 包含 所 访问 eed 目录 项 的 结 点 (图 中 的 
B) , 它 包含 地 址 K 的 存储 单元 及 相应 的 目录 项 。 因 为 物理 地 址 空间 是 静态 分 布 的 ,所 以 
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对 于 东 一 给 定 的 物理 地 址 ,包含 其 存储 单元 及 目录 项 的 结 点 是 确定 且 唯 一 的 。 该 地 址 的 
局 位 指出 结 点 号 ,而 低位 则 表示 在 相应 第 点 的 存储 带 内 的 仿 移 量 。 图 中 的 C 是 远程 第 
点 , 它 拥有 相应 存储 块 的 副本 。 


Cache Cache 
0 副本 
| 
| 
本 地 结 点 A | 远程 结 点 C 
| 
| 
1 
目录 
箔 主 结 扩 B 
(Home) 
图 8.2 宿主 结 点 、 本 地 结 点 和 远程 结 点 
本 地 结 点 和 宿主 结 点 可 以 是 同一 个 结 点 ,这 时 所 访问 的 单元 就 在 本 地 结 点 的 存储 器 
中 。 远 程 结 点 可 以 和 宿主 结 点 是 同一 个 结 点 ,也 可 以 和 本 地 结 点 是 同一 个 结 点 。 在 这 些 


情况 下 ,基本 协议 不 需要 变动 ,只 是 绪 氮 之 加 的 消息 变 成 了 绪 氮 内 的 消息 。 
为 了 实现 一 致 性 ,需要 在 结 扣 之 间 发 送 以 下 请 县 。 


1. 本 地 结 点 发 给 宿主 结 点 (目录 ) 的 消息 


(1) RdMiss(P, K) 
括号 中 的 内 容 表 示 所 市 参数 。 其 中 PP 为 发 出 请 求 的 处 理 机 编号 ,K 为 所 要 访问 的 地 


址 ,下 同 。 
功能 说 明 : 处 理 机 P 读 取 地 址 为 A 的 数据 时 不 谷中 ,请 求 箱 主 绪 氮 提供 数据 ( 块 )， 
并 要 求 把 P 加 入 共 圣 集 。 


(2) WtMiss(P,K) 

功能 说 明 : 处 理 机 了 对 地 址 A 进行 写 人 时 不 命中 ,请 求 宿主 结 点 提供 数据 ,并 使 P 
成 为 所 访问 数据 块 的 独占 痢 ( 共 对 集合 中 只 有 P) 。 

(3) lnvalidate(K) 

功能 说 明 : 请 求 回 所 有 拥有 相应 数据 块 副本 (包含 地 址 KK) 的 远程 Cache 发 Invalidate 消 
县 ,作废 这 些 副本 。 


2. 宿主 结 点 (目录 ) 发 送 给 远程 结 点 的 消息 


(1) Invalidate(K) 
功能 说 明 : 作废 远程 Cache 中 包含 地 址 K 的 数据 块 。 


实验 8 多 Cache 一致 性 一 一 目录 协议 87 


(2) Fetch(K) 

功能 说 明 ; 从 远程 Cache 中 取出 包含 地 址 K 的 数据 块 , 并 将 之 送 到 宿主 结 点 ,把 远程 
Cache 中 那个 块 的 状态 改 为 “ 共 圣 ”。 

(3) Fetch 心 Inv(K) 

功能 说 明 : 从 远程 Cache 中 取出 包含 地 址 KK 的 数据 块 , 并 将 之 送 到 箱 主 绪 点 ,然后 作 
废 远 程 Cache 中 的 那个 块 。 


3. 宿主 结 点 发 送 给 本 地 结 点 的 消息 : DReply(D) 


功能 说 明 : 这 里 的 DD 表示 数据 内 容 , 该 消 明 的 功能 是 把 从 和 窒 主 存储 龙 获 得 的 数据 返 
回 给 本 地 Cache。 


4. 远程 结 点 发 送 给 宿主 结 点 的 消息 : WtBack(K ,D) 


功能 说 明 : 把 远程 Cache 中 包含 地 址 开 的 数据 块 写 回 到 宿主 结 点 中 ,该 消息 是 远程 
结 上 点 对 箱 主 结 点 发 来 的 " 取 数 据 ? 或 * 取 /作废 ”消息 的 啊 应 。 

实际 上 ,只 要 数据 块 由 独占 状态 变 成 共享 状态 ,就 必须 进行 与 回 , 因 为 所 有 的 独占 块 
都 是 被 修改 过 的 ,而 且 任 何 处 于 共享 状态 的 块 与 箱 主 存储 器 中 相应 存储 块 的 内 容 必 和 是 是 
相同 的 。 


5. 本 地 结 点 发 送 给 被 蔡 换 块 的 宿主 结 点 的 消息 


(1) MdSharer(P,K) 

功能 说 明 : 该 消息 用 于 当 本 地 Cache 中 需要 符 换 一 个 包含 地 址 K 的 块 , 且 该 块 未 被 
修改 过 的 情况 。 这 个 消息 发 给 该 块 的 箱 主 结 点 ,请 求 它 将 P 从 共享 集中 删除 。 如 采 删 除 
后 共享 集 变 为 空 集 , 则 箱 主 结 点 还 要 将 该 块 的 状态 变 为 “未 缓存 ”(U) 。 

(2) WtBack2(P,K ,DD) 

功能 说 明 : 该 消息 用 于 当 本 地 Cache 中 需要 替换 一 个 包含 地 址 人 K 的 块 , 且 该 块 已 被 
修改 过 的 情况 。 这 个 消 奶 发 给 该 块 的 和 窒 主 结 点 ,完成 两 步 操作 , 由 把 该 块 与 回 ; 因 进 行 
与 MdSharer 相同 的 操作 。 

需要 说 明 的 是 ,这 里 所 说 的 笨 主 结 点 是 指 要 被 蔡 换 的 块 的 和 宿主 结 点 , 它 与 当前 本 地 结 
点 正在 访问 的 块 的 特 主 结 点 是 不 同 的 。 

为 伽 音 起见, 这 里 我 们 假设 消 明 被 接收 和 处 理 的 顺 友 与 消 明 发 送 的 顺 友 相同 ,但 实际 
情况 并 不 一 定 如 此 ,从 而 会 产生 更 多 的 复杂 性 。 


8.5.2 目录 协议 实例 


基于 目录 的 协议 中 ,Cache 的 基本 状态 与 监听 协议 中 的 相同 ,Cache 芯 状 态 苇 换 的 操 
作 实 奈 上 也 与 监听 协议 相同 。 只 是 在 监听 协议 中 ,相关 的 消 且 要 放 到 忆 线 上 进行 广播 , 现 
在 则 是 由 点 到 点 的 通信 来 完成 。 本 地 结 点 把 请 求 发 给 箱 主 结 点 中 的 目录 ,上 青 由 目录 控制 
全 有 选择 地 同 十 程 结 点 发 出 相应 的 消 朋 ,使 远程 结 点 进行 相应 的 操作 ,并 进行 目录 中 状态 
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信息 等 的 更 新 。 与 监听 协议 相同 , 当 对 Cache 块 进行 写 操作 时 ,该 Cache 块 必须 处 于 独占 
状态 。 态 外 ,对 于 任何 一 个 处 于 共 :部 状态 的 块 来 说 ,其 宿主 存储 器 中 的 内 容 都 是 最 新 的 。 
图 8. 3 是 在 基于 目录 协议 的 系统 中 , 啊 应 本 地 Cache CPU 请 求 时 Cache 块 的 状态 转 
换 图 。 图 中 用 冬 杠 来 分 阳 请 求 和 啊 应 操作 。 冬 杠 前 的 是 请 求 ,和 斜 杠 后 的 是 相应 的 操作 ，。 
在 这 些 操 作 中 ,有 的 是 加 本 次 访问 的 箱 主 结 点 进一步 发 请 求 , 如 RdMiss, WtMiss， 
Invalidate。 有 的 则 是 加 被 其 换 块 的 宿主 结 点 发 请 求 , 如 MdSharer, WtBack2。 其 含义 见 


8.5.1 Hs 


CPU 读 不 命中 /发 WtBack2, 发 RdMiss 
CPU 读 命 中 NYCPU 读 命中 
CPU 写 命 
号 合 中 CPU 写 命中 /发 Invalidate 
CPU 写 不 命中 / CPU 写 不 命中 /发 MdSharer, CPU 读 不 命中 / 
发 WtBack2, 发 WtMiss 发 WtMiss 发 MdSharer， 
RdMiss 


图 8.3 基于 目录 的 系统 中 Cache 块 的 状态 转换 图 I: 啊 应 本 地 CPU 的 请 求 


图 8.4 是 十 程 结 点 中 Cache 块 啊 应 来 目 笨 主 结 上 点 的 请 求 的 状态 转换 图 。 这 些 请 求 包 
括 : Invalidate( 作 废 ),Fetch( 取 数据 块 ),Fetch&Inv( 取 数据 块 并 作废 )。 其 含义 见 8.5.1 节 。 


Fetch/ 必 WtBack 


Fetch&Inv/ Invalidate 


发 WtBack 


8.4 基于 目录 的 系统 中 Cache 块 的 状态 转换 图 卫 : 啊 应 宿主 目录 的 请 求 


如 果 把 上 述 Cache 块 的 状态 转换 及 操作 机 制 看 成 是 完成 了 目录 一 致 性 协议 的 一 半 ， 
则 目录 部 分 是 实现 了 该 协议 中 的 为 一 半 。 
如 前 所 述 ,目录 中 存储 融 块 的 状态 有 : 未 缓存 、 共 至 和 独占 。 际 了 每 个 块 的 状态 外 ， 


日 录 项 还 


下 用 位 回 量 记录 拥有 其 副本 的 处 理 融 的 集合 ,这 个 集合 称 为 共 孚 集合 。 对 于 从 本 
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地 结 点 发 来 的 请 求 ,目录 所 进行 的 操作 包括 : 也 癌 远程 结 点 发 送 消 息 以 完成 相应 的 操作 ， 
这 些 远 程 结 点 由 共享 集合 指出 ; 四 修改 目录 中 该 块 的 状态 ; 加 更 新 共享 集合 。 
目录 可 能 接收 到 3 种 不 同 的 请 求 : 读 不 命中 、 写 不 命中 或 数据 写 回 。 假设 这 些 操作 
是 原子 的 。 
为 了 进一步 理解 目录 所 进行 的 操作 ,下 面 分 析 各 个 状态 下 所 接收 到 的 请 求 和 所 进行 
的 相应 操作 (参见 图 8. 5) 。 


WtMiss/ 发 Fetch&Inv， RdMiss/ 发 Fetch, DReply, 把 P 加 入 共享 集 RdMiss/DReply 


DReply, 共享 集 ={P} . Cs 


WtMiss/ 发 Invalidate， 
DReply, 共享 集 ={P) 


WtBack/ 共 享 集 ={ } 


”RdMiss/ 
发 DReply, 共享 集 ={P} 


WtMiss/ 发 DReply， 
共 讲 集 ={P} 


U : 未 缓存 (Uncached) S: 共享 (Shared) ; 只 读 
E: 独占 (Exclusive) : 可 读 写 ”P: 本 地 处 理 帮 


图 8.5 目录 的 状态 转换 及 相应 的 操作 


(1)〉 当 一 个 块 处 于 未 缓冲 状态 (U) 时 ,对 该 块 发 出 的 请 求 及 处 理 操 作为 . 
。 有 RdMiss( 读 不 命 二 二 ne 青 求 方 处 理 机 , 且 该 人 处理 
机 成 为 该 块 的 唯一 结 点 ,本 块 的 状态 变 成 共 
。 espe = _ 将 所 要 人 该 块 的 状 
态 变 成 独占 ,表示 该 块 仅 存在 唯一 的 副本 。 其 共享 集合 仅 包含 该 处 理 机 ， 指出 该 
处 理 机 是 其 拥有 者 。 
(2) 当 一 个 块 处 于 共享 状态 (S) 时 ,其 在 存储 问 中 的 数据 是 当前 最 新 的 ,对 该 块 发 出 
的 请 求 及 处 理 操 作为 : 
。 RdMiss 一 一 将 存储 兹 数据 送 往 请 求 方 处 理 机 ,并 将 其 加 入 共享 集合 。 
。 WtMiss 一 一 将 数据 送 往 请 求 方 处 理 机 ,对 共享 集合 中 所 有 的 处理 机 发 送 作 废 消 
息 , 且 将 共享 集合 改 为 仅 含 有 该 处 理 机 ,该 块 的 状态 变 为 独占 。 
(3) 当 某 块 处 于 独占 状态 (E) 时 ,该 块 的 最 新 值 保 存在 共享 集合 所 指出 的 唯一 处 理 机 
(拥有 者 ) 中 。 有 3 种 可 能 的 请 求 : 
。 RdMiss 一 一 将 “ 取 数 据 ” 的 消 肯 发 往 拥有 者 处 理 机 ,将 它 所 返回 给 答 主 结 点 的 数 
据 写 人 存储 大 ,进而 把 该 数据 送 回 请 求 方 处理 机 ,将 请 求 方 处 理 机 加 入 共享 集合 。 
此 时 共享 集合 中 仍 保 留 原 拥有 者 处 理 机 (因为 它 仍 有 一 个 可 读 的 副本 ) ,将 该 块 的 
状态 变 为 共 侍 。 
。 WtMiss 一 一 该 块 将 有 一 个 新 的 拥有 者 ,给 旧 的 拥有 者 处 理 机 发 送 消 息 , 要 求 它 将 
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数据 块 送 回 和 宿主 结 点 与 人 存储 天 ,然后 再 从 该 绪 点 送 给 请 求 方 处 理 机 。 同 时 还 要 
把 旧 拥 有 者 处 理 机 中 的 该 块 作废 ,把 请 求 处 理 机 加 入 共享 者 集合 ,使 之 成 为 新 的 
拥有 者 ,该 块 的 状态 仍 旧 是 独占 。 
WtBack( 与 回 ) 一 一 当 一 个 块 的 拥有 者 处 理 机 要 从 其 Cache 中 把 该 块 符 换 出 去 
时 ,必须 将 该 块 写 回 其 箱 主 结 点 的 存储 天 中 ,从 而 使 存储 闫 中 相应 的 块 中 存放 的 
数据 是 最 新 的 ( 箱 主 结 点 实际 上 成 为 拥有 者 ), 该 块 的 状态 变 成 未 缓冲 ,其 共 吾 集 
合 为 空 。 

实际 计算 机 中 采用 的 目录 协议 要 做 一 些 优化 。 比 如 对 有 茶 个 独占 块 发 出 谈 或 写 不 命中 
时 ,该 块 将 先 锌 送 往 答 主 结 点 存 人 存储 器 ,然后 青 被 送 往 请 求 结 点 ,而 实际 中 的 计算 机 很 
多 部 是 将 数据 从 拥有 者 结 点 耳 接 送 往 该 请 求 结 点 ,同时 写 回 宿主 结 点 中 的 存储 器 。 

基于 目录 的 Cache 一 致 性 协议 是 完全 由 便 件 实现 的 。 当 然 , 也 可 以 用 软 人 硬结 合 的 办 
法 实现 ,即将 一 个 可 编程 协议 处 理 机 艇 和 人 到 一 致 性 控制 希 中 ,这 样 既 减少 了 成 本 ,又 缩短 
了 开发 周期 。 这 是 因为 可 编程 协议 处 理 机 可 以 根据 实际 应 用 需要 很 快 开发 出 来 ,而 一 致 
性 协议 处 理 中 的 异 委 情况 可 完全 交 给 软件 执行 。 这 种 软 刹 结合 实现 Cache 一 致 性 的 代价 


附录 A MIPSsim 的 指令 列表 


MIPSsim 是 一 个 指令 级 和 流水 线 级 的 MIPS 模拟 器 , 它 能 够 执行 用 MIPS 汇编 语言 
( 子 集 ) 编 写 的 程序 ,下 面 给 出 它 所 能 够 执行 的 MIPS 指令 的 列表 (MIPS64 指令 集 的 一 个 
于 集 ) 。 

符号 说 明 : 

(1) 在 指令 助 记 符 中 ,“. W” 表 示 32 位 整数 ,“. L” 表 示 64 位 整数 ,“. S” 表 示 单 精度 浮 
点 数 ,“. D” 表 示 双 精度 浮 点 数 ,“. fmt” 表 示 多 种 格式 的 数据 ,fmt€(S,D,W ,L)。 

(2) 助 记 符 的 最 后 一 个 字母 为 U 表示 无 符号 操作 ,I 表示 与 立即 值 操 作 ,IU 表示 无 
符号 立即 值 操 作 。 助 记 符 的 第 一 个 字母 为 D 表示 是 双 字 (64 位 ) 操 作 。 

(3) 为 简洁 起 见 , 直接 用 rs 来 表示 rs 寄存 器 中 的 内 容 , 其 他 的 如 rt,rd,fs,ft,fd 等 都 
是 如 此 。 

(4) fs,ft,fd 表示 浮上 点 寄存 而。 一 般 来 说 ,fs 和 ft 表示 源 操 作 数 (寄存 天) ,fd 表示 结 
末 寄 存 关 。 

(5) rs,rt,rd 表示 整数 寄存 需 , 也 称 为 通用 寄存 需 。 一 般 来 说 ,rs 和 rt 表示 源 操作 数 
(寄存 大 ) ,rd 表示 目的 寄存 天。 

(6) 以 下 是 两 个 特殊 寄存 器 : 

LO 一 一 特殊 寄存 器 ,常用 来 存放 乘积 的 低 32 位 (或 64 位) 以 及 除法 的 商 ; 

H]1 一 一 特殊 寄存 器 ,和 常用 来 存放 乘积 的 高 32 位 (或 64 位) 以 及 除法 的 余数 。 


1. 算术 运算 指令 


rd<—rs 二 rt 


rt<—rs 二 immediate 

立即 值 加 (ADDD) ADDI rt,rs,immediate 32 位 , 按 有 符号 数 操 作 ,immediate 都 是 16 
位 的 ,下 同 

rt< rs 十 immediate 

32 位 , 按 无 符号 数 操作 

rd<—rs 二 rt 

32 位 , 按 无 符号 数 操作 

rd<—rs 二 rt 

按 有 符号 数 操作 

rt< rs 十 immediate 


按 有 符号 数 操作 


无 符号 立即 值 加 (ADDIU ) ADDIU rt,rs,immediate 


无 符号 加 (ADDU) ADDU rd,rs,rt 


双 衬 寄存 紫 加 (DADD) DADD rd,rs,rt 


双 字 立即 值 加 (CDADDT) DADDI rt,rs,immediate 
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名 称 
双 字 无 符号 立即 值 加 
(DADDIU) 
双 字 无 符号 加 (DADDU) 
寄存 器 减 (SUB) 
无 符号 减 (SUBU) 
双 字 寄存 器 减 (DSUB) 


双 字 无 和 号 减 (DSUBU) 


寄存 器 乘 1(MUL) 


寄存 器 乘 2(MULT) 


无 符号 寄存 天 乘 CLMULTU) 


双 字 寄存 大 乘 (CDMULT) 


双 字 无 特写 缮 (DMULTU) 


寄存 器 除 (DIV) 


无 人生 写 寄存 兹 除 (DIVU) 


双 字 寄存 器 除 (DDIV) 


双 字 无 符号 除 (DDIVU) 


小 于 比较 (SLT) 


无 符号 小 于 比较 (SLTU) 


立即 值 小 于 比较 (SLTTD 
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DADDIU rt,rs,immediate 


DADDU rd,rs,rt 


SUB rd TS rt 


SUBU rd "IS»sIt 
DSUBU rd,rs,rt 


MUL rd,rs,rt 


MULT rs,rt 


MULTU rs,rt 
DMULT rd,rs,rt 
DMULTU rd,rs,rt 
DIV rs,rt 


DIVU rs,rt 


DDIY rs,rt 


DDIVU rs,rt 


SLT rd,rs,rt 


SLTU rd ssS»s1t 


SLTI rt,rs,immediate 


擂 述 
rt<—rs 二 iImmediate 
按 无 符号 数 操作 
rd<—rs 二 rt 
按 无 符号 数 操作 
rd<—rs—rt 
32 位 , 按 有 符号 数 操作 
rd<—rs— rt 
32 位 , 按 无 符号 数 操作 
rd<—rs— rt 
按 有 符号 数 操作 
rd<—rs— rt 
按 无 人 符号 数 操作 
rd<—rsxrt 
32 位 , 按 有 符号 数 操作 
(LO, HI) 一 rsXrt,32 位 , 按 有 符号 数 操 
作 。 所 得 到 的 积 的 低 32 位 按 符 号 扩展 后 
送 特殊 寄存 项 LO ,高 32 位 按 符 号 扩展 后 
送 特殊 寄存 需 HI 
按 无 符号 数 操作 ,其 余 同 MULT 
(LO, HD<rsXrt 
积 的 低 64 位 送 LO, 高 64 位 送 HI, 按 有 符 
号 数 操作 
按 无 从 号 数 操 作 , 其 余 同 DMULT 
CLO, HD<rs/rt 
32 位 商 送 LO,32 位 余数 送 HI, 按 有 符号 
数 操作 
按 无 符号 数 操作 ,其余 同 DIV 
(LO, HD<—rs/rt 
64 位 商 送 LO,64 位 余数 送 HI, 按 有 符号 
按 无 从 号 数 操作 ,其 余 同 DDIV 
i (rs<rt) rd<—]1 
else rd<—0 
i (rs<rt) rd<l1 
else rd<—0 
按 无 符号 数 操作 
i (rs<immediate) rt<—1 
else rt<—0 
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续 表 
i{ (rs=<immediate) rt 一 1 
无 任 号 立即 值 小 于 
ee ds SLTIU rt,rs,immediate else rt<—0 
四 按 无 符号 数 操作 
字 节 符号 位 扩展 CSEB) rart 的 末 字 节 按 符 导 位 扩展 
于 字符 号 位 扩展 CSEHD rrt 的 后 半 字 接 符号 位 扩展 
2. 逻辑 运算 指令 
名 称 摘 述 
与 (AND) AND rd,rs,rt rd<—rs AND rt 
立即 值 与 (ANDJ) ANDI rt,rs,immediate rt<—rs AND immediate 
司 16 位 immediate 低位 拼接 16 位 0, 然后 按 
wh VLUI) LUI rt,immediat | 
Pe En 符号 位 扩展 后 装 人 rt 
或 韭 (NOR) NOR rd,rs,rt rd<—rs NOR rt 
或 (OR) OR rd,rs,rt rd<—rs OR rt 
立即 值 或 (CORDJ) ORI rt,rs,immediate rt 一 Ts OR immediate 
异 或 (XOR) XOR rd,rs, rt rd<—rs XOFR rt 
立即 值 异 或 (XORI) AURI rt,rs,immediate rt<—rs XOR immediate 
3. CPU 移 位 指令 
rd<rt< 一 sa 
按 立 即 值 逻 辑 左 移 (SLL) SLL rdyrtysa rt 中 的 低 32 位 进行 逻辑 左 移 ,结果 按 符号 位 扩 
展 , 然 后 放 人 rd。 移 动 的 位 数 由 立即 值 sa 给 出 
rd<—rt > > sa 
按 立 即 值 算术 右 移 (SRA) SRA rd,rt,ss 
， rt 中 的 低 32 位 进行 算术 右 移 ,其 余 同 SLL 
rd<—rt > > ss 
按 立即 值 逻辑 右 移 (SRL) 由 
rt 中 的 低 32 位 进行 逻辑 右 移 ,其 余 同 SLL 
rd<—rt< 二 <rs 
rt 中 的 低 32 位 进行 逻辑 左 移 ,结果 进行 全 号 位 
按 变量 逻辑 左 移 (SLLV) SLLY rd,rt,rs : 
”| 扩展 ,然后 放 入 rd 
移动 的 位 数 由 寄存 右 rs 给 出 
加 rd<—rt> 一 TS 
按 变 量 算术 右 移 (SRAV) SRAV rd,rt,rs Po 
”| rt 中 的 低 32 位 进行 算术 右 移 ,其 余 同 SLLV。 
加 rd<—rt> rs 
按 变 量 逻 辑 右 移 (SRLV) SRLV rd,rt,rs 


rt 中 的 低 32 位 进行 逻辑 右 移 ,其 余 同 SLLV 


| rd< rt 中 的 低 32 位 进行 循环 右 移 ， 
wR 循 : 中 ， R R R RIr sti, SH ee 
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rd< rt 中 的 低 32 位 进行 循环 右 移 ， 
变量 循环 右 移 (ROTRV) ROTRY rd,rt,rs 4 
按 变量 循环 右 移 5 | 移动 的 位 数 由 寄存 器 rs 给 出 


rd<—rt< 二 < 过 sa 
又 字 按 杰 即 值 3 站 稀 (DSLL)| DSLL rd,rt,s 


: rd<—rt > > sa 
; 字 Ey 昌 | 1 梯 (DSRL DSRL d slly St 、 
0 "oftoSa | 移动 的 位 数 由 立即 值 sa 给 出 


rd<—rt. > ~ sa 
移动 的 位 数 由 立即 值 sa 给 出 
rd<—rt<<rs 
移动 的 位 数 由 寄存 硕 rs 给 出 
rd<—rt.> 一 TS 
移动 的 位 数 由 寄存 磊 rs 给 出 
rd< 一 rt 全 TS 
移动 的 位 数 由 寄存 硕 rs 给 出 
rd< rt 中 的 双 字 循环 右 移 ， 
移动 的 位 数 由 立即 值 sa 给 出 
rd< rt 中 的 双 字 循环 右 移 ， 
移动 的 位 数 由 寄存 硕 rs 给 出 


双 字 按 立 即 值 算 术 右 移 (DSRA) | DSRA rd,rt,sa 
双 字 按 变量 逻辑 左 移 (DSLLV) | DSLLV rd,rt,rs 
双 字 按 变量 逻辑 右 移 (DSRLV) | DSRLV rd,rt,rs 
双 字 按 变量 算术 右 移 (DSRAV) | DSRAV rd,rt,rs 
双 字 按 立 即 值 循环 右 移 (DROTR)| DROTR rd,rt,sa 


双 字 按 变量 循环 右 移 (DROTRV) | DROTRYV rd,rt,rs 


4. CPU 传送 指令 


等 于 0 传送 (MOVZ) MOVEYZ rd,rs,rt If(rt=0)then rd-< 一 rs 


不 等 于 0 传送 (MOVN) MOVN rd,rs,rt If(rt!=0) then rd<—rs 
从 HI 传送 至 英 数 寄存 器 (CMFHD rd HI 


从 LO 传送 至 整数 寄存 器 (MFLO) rd<-LO 

从 整数 寄存 器 传送 至 HI (MTHD) HI<—rs 

从 整数 寄存 器 传送 至 LO (MTLO) LO< rs 

if FPConditionCode(cc)=0 
then rd=<—rs 

if FPConditionCode(cc)=1 


then rd<—rs 


浮 点 条 件 码 为 假 整数 传送 (MOVF) MOVF rd,rsycc 


浮 点 条 件 码 为 丰 整 数 传送 (MOVT) MOVT rd,rs,cc 


5. 浮 点 传送 指令 


名 称 格 式 摘 述 
把 浮上 点 控制 寄存 顺 的 内 容 传送 至 ee 把 fs 中 的 32 位 数据 按 符 号 位 扩展 成 
整数 寄存 器 (CFC1) 0 64 位 后 送 入 rt 


控制 寄存 器 (CTC1) rt,ls sr 
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名 称 


从 浮 点 寄存 器 传送 双 字 到 整数 寄存 0 
器 (DMFC1) 


从 整数 寄存 器 传送 双 字 到 浮 点 寄存 
器 (DMTC1) 
从 浮 点 寄存 器 传送 32 位 至 整数 寄 
存 器 (MFC1) 
从 整数 寄存 器 传送 32 位 至 浮 点 寄 
存 器 (MTC1) 


DMTC] rt fs 


MEFC1 rt,fs 


MTC1 rt, fs 


单 精 度 浮 点 传送 (MOV. S) MOV. S fd,fs 
双 精 度 浮 点 传送 (MOV. D) MOV. D fd,fs 


等 于 0 单 精 度 浮 点 传送 (MOVZ. S) | MOVZ. S fd,fs:rt 


等 于 0 双 精 度 浮 点 传送 (MOVZ. D) 


不 等 于 0 单 精度 浮 点 传送 (MOVN.S) | MOVN. S fd,fs,rt 


不 等 于 0 双 精 度 浮 点 传送 (MOVN. D) 


浮 点 条 件 码 为 假 单 精度 浮 氮 传送 
(MO VF. S) 
浮 点 条 件 码 为 假 双 精 度 浮 点 传送 
(MOVEF. D) 
浮 点 条 件 码 为 真 单 精度 浮 氮 传送 
(MOVT. S) 
浮 点 条 件 人 码 为 其 双 精 度 浮 点 传送 
(MOVT. D) 


MOVE. S fd,fs,cc 


MOVE. LD) td ' fs s CC 


MOVT. Sf{td,fs,cc 


MOYVY TT. D fd fs s CC 


6. 分 支 指 令 
名 称 

无 条 件 转 移 (B) 
等 于 0 转移 (BEQZ) BEQZ rs,rtyoffset 
不 等 于 0 转移 (BNEZ) BNEZ rs,rt,otfset 
相等 转移 (BEQ) BEQ rs,rt,offset 
不 相等 转移 (BNE) BNE rs,rt,offset 
大 于 等 于 0 转移 (BGEZ2) 
大 于 0 转移 (BGTZ) BGTZ rsyoffset 
小 于 等 于 0 转移 (BLEZ) BLEZ rs,offset 


小 于 0 转移 (BLTZ) 


大 于 等 于 0 转移 并 链接 (BGEZAL) | BGEZAL rs,offset 


用 以 下 指令 实现 : 
B offset 
BEQ r0,r0 ,offset 


续 表 
描 述 
fs<—rt 
rt< fs 符号 位 扩展 后 
fs< 一 rt 
ftd< fs 


I{(rt=0) then fd<fs 


If(rt!=0) then fd-< 一 fs 


if 下 PConditionCode(Ccc) 一 0 
then {d=<—ts 
if FPConditionCode(cc)=0 
then fd< 一 {s 
i{f FPConditionCode(cc)=1 
then {d=<—ts 
if FPConditionCode(cc)=1 
then {d=<—ts 


描 述 


if(rs=0) then action 

action 表示 : 以 offset 作为 相对 于 
PC 十 4 的 偏 移 量 进行 转移 ,下 同 
if(rs!=0) then action= 
if(rs 一 rt) then actione 


if(rs! 一 rt) then action= 


BGEZ rsyoffset if(rs>=0) then action 


if(rs 盖 0) then action= 


if(rs 一 一 0) then action= 


BLTZ rs,offset if(rs<0) then action 址 


If (rs 二 一 0) then action, 并 将 返 
回 地 址 (当前 的 PC 值 ) 保 存 到 R31 
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名 称 格 式 描 述 


If (rs 二 0) then action, 并 将 返回 
地 址 保存 到 R31 


小 于 0 转移 并 链接 (BLTZAL) BLTZAL rs,offset 


从 异 第 处 理 返 回 (ERET) ERET 


注 : action 表示 以 offset 作为 相对 于 PC 十 4 的 偏 移 量 进行 转移 


7. 跳 转 指 令 


跳 转 () 无 条 件 转移 到 目标 地 址 target 


寄存 器 跳 转 (JR) 无 条 件 转移 ,目标 地 址 由 rs 给 出 


无 条 件 转移 到 目标 地 址 target, 并 将 返回 地 
和 拦 (JAL AL 


gy 无 条 件 转 移 到 rs 给 出 的 地 址 ,并 将 返回 地 址 
寄存 器 跳 转 并 链接 (JALR) JALR rd,rs pd 


跳 转 并 4 


8. 访 存 指令 
从 存储 器 读 出 数据 或 将 数据 写 入 存储 右 。 存 储 帮 的 地 址 按 “16 位 侦 移 量 offset 十 定 
太 寄 存 间 base 的 内 容 ” 计 算 。 


取 字 广 (LB) LB rt,offset( base) 
rt<—memory| base 十 offset | 


取 半 字 (LH) LH rt,offset(base) z 
按 有 符号 数 操 作 

取 字 (LW) LW rt,offset(base) 
取 无 符号 字 广 (LBU) LBU rt,offset(base) page| offaet 

ee rt<-memory| baset offset 
取 无 符号 半 字 (LHU) LHU rt,offset( base) | 

/ -一 一 一 按 无 符号 数 操作 
取 无 符号 字 (LWU) LWU rt,offset(base) 
取 双 字 (LD) LD rt,offset(base) rt<-memory| baset offset | 
取 浮 点 数 (LDC1) LDC] ft,offset(base) ft<—-memory| base offset | 
人 存 字 和 (CSB) SB rt,offset(base) 


存 半 字 (SHI) SH rt,offset(base) 
存 字 (SW) SW rt,offset(base) 
和 存 双 字 (SD) SD rt,offset(base) 


存 浮 点 数 (SDC1) SDC] ft,offset(base) memory[ base+ offset |<—ft 


memory[ base offset |<—rt 
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9. 浮 点 访 存 指令 


取 单 精度 浮 点 数 (L. S) L. S ft,offset(base) 

取 双 精度 浮 点 数 (L. DD) L.D ft,offset(base) ft<-memoryL base 二 offset] 
取 字 到 FPR(LWC1) LWC1 ft,offset(base) ft 为 浮 点 寄存 器 ,下 同 

取 双 字 到 FPR(LDC1) LDC] ft,offset(base) 
存单 精度 浮 点 数 (S. S) S. S ft,offset(base) 
存 双 精 度 浮 点 数 (S. DD) S. D ft,offset(base) 
存 FPR 中 的 单字 到 存储 器 (SWC1)| SWC1 ft,offset(base) 
存 FPR 中 的 双 字 到 存储 器 (SDC1) | SDC1 ft,offset(base) 
变 址 取 单 字 到 FPR(LWXC1) LWXC] fd,index(base) 

变 址 取 双 字 到 FPR(LDXC1) I 
变 址 存 FPR 中 的 单字 (SWXC1) | SWXC] fs,index(base) 

变 址 存 FPR 中 的 双 字 (SDXC1) | SDXC1 fs,index(base) 


memory| base offset |<—ft 


memory| base offset |<—ft 


memory[ base+index |<—fs 


10. 自 陷 指 令 


寺 于 自卫 CTEQ) et 
不 等 于 目 隐 (TNE) If rs! 一 rt then trap 
大 于 等 于 目 陷 (CTGE) If rs 二 一 rt then trap 
小 于 目 陷 (CTLT) TLT rs, rt If rs 一 rt then trap 
大 于 等 于 自 陷 (TGEU) 和 
小 于 目 陷 (CTLTTU ) If rs 一 rt then trap 


等 于 立即 值 目 陶 (TEQI) TEQI rs,immediate If rs 一 immediate then trap 
不 等 于 立即 值 上 月 陷 (CTNED) TNEI rs,immediate If rs! 一 immediate then trap 
大 于 等 于 立即 值 目 陷 (TGED) TGEI rs ,immediate If rs 一 一 immediate then trap 
小 于 立即 值 目 陷 (CTLTDI) TLTI rs,immediate If rs 一 immediate then trap 
大 于 等 于 无 符号 立即 值 自 陷 (TGEIU) | TGEIU rs,immediate If rs 二 一 immediate then trap 
小 于 无 符号 立即 值 自 陷 (TLTIU) TLTIU rs,immediate If rs 一 immediate then trap 
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11. 浮 点 运算 指令 


单 精度 求 绝 对 值 (ABS. S) ABS. S fd,fs 
/ - fd<—abs(ts) 
双 精 度 求 绝对 值 (ABS. D) APBS.D fd,fs 
单 精度 浮 点 加 (ADD. S) ADD. S fd ,fs,ft 
fd<—fs 二 ft 
双 精 度 浮 点 加 (ADD. D) ADD.D fd,fs,ft 
单 精度 浮 点 减 (SUB. S) SUB. S fd,fs,ft 
< is 一 让 
双 精 度 序 点 减 CSUB.D) SUB. D fd,fs,ft 
单 精 度 浮 点 乘 (MUL. S) MUL. S fd,fs,ft 
fd<—fs Xx ft 
双 精 度 浮 点 乘 (MUL. DD) MUL.D fd,fs,ft 
单 精度 浮 点 除 (DIV. S) DIV. S fd,fs,ft 
<—Is/1t 
双 精 度 浮 点 除 (DIV. DD) DIV.D fd,fs,ft 
单 精 度 浮 点 求 针 CNEG. S) NEG. S fd,fs fd-< 一 一 fs 
双 精 度 浮 点 求人 负 (NEG. D) NEG. D fd,fs fd 二 一 fs 
单 精 度 求 平 方 根 (SQRT. S) SQRT. S fd,fs 
fd<—SQRT(fs) 
双 精 度 求 平方 根 (SQRT. D) SQRT.D fd,fs 


12. 浮 点 分 支 指令 


i 下 PLConditionCodektcc) 一 0 
浮 点 条 件 码 为 假 转移 (BC1F) BC]1F cc,otfset l ee 
then 转移 
if FPConditionCode(cc)=1 


浮 点 条 件 码 为 真 转移 (BC1T) BC1T ccyoftset then 转移 


13. 浮 点 比较 指令 


condE (LT,GT,LE,GE,EQ,NE), 

按 cond 的 关系 对 fs 和 ft 进行 比较 ,如 
果 关 系 成 立 , 则 置 浮 点 条 件 码 cc 为 1, 否 
则 置 为 0 


单 精 度 浮 点 比较 并 设置 条 件 码 (CC 
cond. S) 


C. cond. S fs,ft 


双 精 度 浮 点 比较 并 设置 条 件 码 


Lo d.D fs,{t A 下 | s 后 C. cond. S 
(C. cond. D) Co 按 双 精度 比较 ,其 余 同 C. con 
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14. 浮 点 转换 指令 


名 称 
单 精度 浮 点 数 转 换 成 双 精 度 (CVT. D. S) “VT.D.Sfd,fs 
32 位 整数 转换 成 双 精 度 浮 点 数 (CVT.D.W) | CVT.D.W fd,fs 


64 位 整数 转换 成 双 精 度 浮 点 数 (CVT. D. LL) VT. D.L fd,fs z : : 
32 位 整数 转换 成 单 精度 浮 点 数 (CCVT. S. W) | CVT. S. W fd,fs 
64 位 整数 转换 成 单 精度 浮 点 数 (CVT. S.L) | CVT.S.L fd,fs A TO 
双 精度 浮 点 数 转换 成 单 精度 (CCVT. S. D) T.S.D fd,fs ni A 
单 精 度 浮 点 数 转换 成 32 位 整数 (CCVT. W. S) | CVT, W. S fd,fs 位 整数 ), W032 位 整数 》， 
双 精 度 浮 点 数 转 换 成 32 位 整数 (CVT. W. D) T. W.D fd,fs D(C 双 粮 度 ) ,SC 单 粮 度 )) 
单 精 度 浮 点 数 转换 成 64 位 整数 (CVT.L.S) | CVT.L.S fd,fs 
双 精 度 浮 点 数 转 换 成 64 位 整数 (CVT. L.D) T.L.D fd,fs 
单 精 度 转 换 并 截断 成 单字 整数 (TRUNC.L.S) | TRUNC.L.S fd,fs 
双 精 度 转换 并 截断 成 单字 整数 (TRUNC. L. D) 

fd<fs 转换 并 截断 


单 精度 转换 并 截断 成 双 字 整 数 (TRUNC., W.S) | TRUNC. W.S fd,fs 
双 精 度 转换 并 截断 成 双 字 整数 (TRUNC. W.D) | TRUNC. W.D fd,fs 
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MIPSsim 是 一 个 指令 级 和 流水 线 级 的 MIPS 模拟 器 , 它 能 够 执行 用 MIPS 汇编 语言 
( 子 集 ) 编 写 的 程序 ,下 面 详细 描述 它 所 能 够 执行 的 MIPSsim 的 指令 系统 (MIPS64 指令 
集 罗 一 下 于 和 富 扩 

符号 说 明 : 

(1) 在 指令 助 记 符 中 ,“. W” 表 示 32 位 整数 ,“. L” 表 示 64 位 整数 ,“. S” 表 示 单 精度 浮 
点 数 ,“. D” 表 示 双 精度 浮 点 数 ,“. fmt” 表 示 多 种 格式 的 数据 ,fmt€(S,D,W,L)。 

(2) 助 记 符 的 最 后 一 个 字母 为 U 表示 无 符号 操作 ,I 表示 与 立即 值 操 作 ,IU 表示 无 
和 从 号 立即 值 操 作 。 助 记 符 的 第 一 个 字母 为 D 表示 是 双 字 (64 位 ) 操 作 。 

(3) 为 简洁 起 见 , 直接 用 rs 来 表示 rs 寄存 器 中 的 内 容 , 其 他 的 如 rt,rd,fs,ft,fd 等 都 
是 如 此 。 

(4) fs,ft,fd 表示 浮 点 寄存 器 。 一 般 来 说 ,fs 和 ft 表示 源 操作 数 ( 寄 存 器 ) ,fd 表示 结 

(5) rs,rt,rd 表示 整数 寄存 需 , 也 称 为 通用 寄存 需 。 一 般 来 说 ,rs 和 rt 表示 源 操作 数 
(可 和 存 冀 ) ,rd 表示 目的 寄存 表 。 

(6) 以 下 是 两 个 特殊 寄存 器 : 

LO 一 一 特殊 寄存 器 ,常用 来 存放 乘积 的 低 32 位 (或 64 位) 以 及 除法 的 商 ; 

HI 一 一 特殊 寄存 器 ,常用 来 存放 乘积 的 高 32 位 (或 64 位 ) 以 及 除法 的 余数 。 


1. ABS. fmt 


名 称 : 求 绝 对 值 
指令 格式 ， 


ABS. S fd,fs 

ABS.D fd, fs 

指令 助 记 符 中 的 fmt 指出 按 什 么 数据 格式 进行 运算 。S 表示 是 单 精 度 ,D 表示 是 双 
精度 ,下 同 。 
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功能 说 明 : 

fd<—abs( fs) 

对 浮 点 寄存 一 fs 中 的 数据 求 绝 对 值 , 结 来 放 入 fd。 
2. ADD 


指令 格式 : 


20 25 


SPECIAL 
000000 00000 100000 


符号 指令 ， 
ADD rd, rs, rt 
功能 说 明 : 
rd<—rs+ rt 


对 通用 寄存 天 rs 和 rt 中 的 32 位 整数 进行 加 法 运算 , 结 来 按 符 号 位 扩展 后 放 入 通用 
寄存 第 rd, 按 有 符号 数 操作 。 


3. ADD. fmt 


名 称 : 浮 点 加 
指令 格式 : 


20 25 


COP1 
010001 000000 


符号 指令 ， 


ADD. S fd, fs, ft 
ADD.D fd,fs, ft 


功能 说 明 : 
fd=<—fs+ ft 


对 浮 点 寄存 绩 fs 和 ft 中 的 浮 点 数 进行 加 法 运算 ,结果 放 入 浮 点 寄存 如 fd，。 
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4. ADDI 


名 称 : 立即 值 加 
指令 格式 : 


20 25 


ADDI 
immediate 
001000 


符号 指令 : 

ADDI rt, rs, immediate 

功能 说 明 : 

rt<—rs+ immediate 

把 带 符号 的 16 位 立即 值 immediate 与 rs 中 的 32 位 整数 相 加 ,结果 进行 符号 位 扩展 
后 放 入 rt, 按 有 符号 数 操作 。 


3，ADDIU 


名 称 : 无 符号 立即 值 加 
指令 格式 : 


20 29 


ADDIU 
Immediate 
001001 


符号 指令 : 

ADDIU rt,rs, immediate 

功能 说 明 : 

It< TS 二 Immediate 

把 市 符号 的 16 位 立即 值 immediate 与 rs 中 的 32 位 整数 相 加 ,结果 进行 符号 位 扩展 
后 放 和 rt, 按 无 符号 数 操作 。 


6. ADDU 
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SPECIAL ADDU 
000000 QO0000 100001 


符号 指令 : 

ADDU rd, rs, rt 

功能 说 明 : 

rd<—rs+ rt 

把 rt 和 rs 中 的 32 位 整数 授 无 全 号 数 进行 相 加 , 结 末 进行 特写 位 扩展 后 放 入 rd。 
7. AND 

名 称 : 与 

指令 格式 : 


| 20 20 


SPECIAL 
000000 QO0000 100100 


符号 指令 : 
AND rd, rs, rt 
功能 说 明 : 
rd<—rs AND rt 
把 rt 和 rs 中 的 数据 按 位 进行 逻辑 “与 ”操作 ,结果 放 入 rd。 


8. ANDI 


名 称 : 立即 值 与 
指令 格式 ， 


26 25 


ANDI 
immediate 
001100 
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符号 指令 ， 
ANDI rt,rs, immediate 
功能 说 明 : 

rt< -TS AND immediate 


把 16 位 立即 值 immediate 进行 0 扩展 后 ,和 rs 中 的 数据 按 位 进行 逻辑 “与 ?操作 , 结 
果 放 人 rt。 


9. B 


名 称 : 无 条 件 苇 移 
指令 格式 : 


3 20 25 21 


BEQ 0 
000100 0Q0000 
6 9 


20 16 15 0 
0 
| 
00000 
9 16 


B offset 
功能 说 明 : 


用 指 令 实 现 : BEQ r0,r0,offset 


10. BCI1F 
名 称 : 浮 点 条 件 码 为 假 则 转移 
指令 格式 : 
31 20 25 2] 20 18 17 16 15 0 
COP1 BC nd tf 
010001 01000 0 1 
0b 9 3 1 ] 16 


BC1F offset ( 隐 含 cc = 0) 
BC1F cc, offset 


功能 说 明 : 


if FPConditionCode(cc) = 0 then 转移 
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转移 地 址 ; 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC( 其 当前 值 是 指向 
本 转移 指令 的 下 一 条 指令 ,下 同 ) 相 加 。 
11. BCI1T 


名 称 : 学 点 条 件 人 码 为 其 则 转移 


指令 格式 : 
31 26 25 21] 20 18 17 16 15 0 
COP1 BC nd tf 
ce otfset 
010001 01000 0 1 
6 5 3 1 ] 16 
符号 指令 : 


BC1T offset (cc = 0 implied) 
BC1T cc, offset 


功能 说 明 : 

if FPConditionCode(cc) = 1 then 转移 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 
12. BEQ 


名 称 : 相等 转移 
指令 格式 ; 


3] 20 25 21 


BEQ 
rs 
000100 
6 9 


20 16 15 0 
9 16 


BEO rs, rt, offset 

功能 说 明 : 

if (rs = zt) then 转移 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 
13. BGEZ 


名 称 : 大 于 等 于 0 转移 
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REGIMM 
offset 
000001 00001 


符号 指令 : 

BGEZ rs, offset 

功能 说 明 : 

if(rs>=0) then 转移 

转移 地 址 ; 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 


14. BGEZAL 


名 称 : 大 于 等 于 0 转移 并 链接 
指令 格式 ， 


20 25 


REGIMM BGEZAL 
otfset 
000001 10001 


符号 指令 : 
BGEZAL rs, offset 


功能 说 明 : 

IH (rs 全 =0) then 转移 ,并 将 返回 地 址 (当前 的 PC 值 , 指 问 本 转移 指令 后 面 第 二 条 指 
令 的 地 址 (PC 十 8) ,下 同 ) 保 存 到 R31。 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 


15. BGTZ 
名 称 : 大 于 0 转移 
指令 格式 : 

20 25 


BGTZ 
offset 
000111 00000 
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符号 指令 : 

BGTZ rs, offset 

功能 说 明 : 

if(rs>0) then 转移 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 
16. BLEZ 


名 称 : 小 于 等 于 0 转移 
指令 格式 ， 


20 25 


BLEZ 
offset 
000110 00000 


符号 指令 : 

BLEZ rs, offset 

功能 说 明 : 

if(rs<=0) then 转移 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 
17. BLTZ 


名 称 : 小 于 0 转移 
指令 格式 : 


20 25 


REGIMM BLTZ 
otfset 
000001 00000 


符号 指 
BLTZ rs, offset 
功能 说 明 : 
if(rs<0) then 转移 


转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 
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18. BLIZAL 


名 称 : 小 于 0 转移 并 链接 
指令 格式 : 


20 25 


REGIMM BLTZAL 
offset 
000001 10000 


符号 指令 : 

BLTZAL rs, offset 

功能 说 明 : 

If (rs 二 0) then 转移 ,并 将 返回 地 址 后 面 第 二 条 指令 的 地 址 (PC 十 8) 保 存 到 R31。 
转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 

19. BNE 


名 称 : 不 相等 转移 
指令 格式 ， 


20 25 


offset 
000101 


符号 指令 : 

BNE rs, rt, offset 

功能 说 明 : 

if(rs!= rt) then 转移 

转移 地 址 : 将 16 位 的 offset 左 移 2 位 并 进行 符号 位 扩展 后 ,与 PC 相 加 。 


20. BREAK 


指令 格式 : 


31 26 25 6 5 0 
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符号 指令 : 


21. C. cond. fmt 


名 称 : 浮 点 数 比 较 并 设置 浮 点 部 件 条 件 人 码 
指令 格式 : 


符号 指令 : 


C cond.S fs,ft ( 隐 含 cc = 0) 
C cond.D fs,ft ( 隐 含 cc = 0) 
C cond.S cce,fs,ft 
C cond.D ce, fs,ft 


功能 说 明 : 
condE (LT, GT, LE, GE, EQ, NE), (SF, NGLE, SEQ, NGL, LT, NGE, LE, NGT) 


按 cond 的 关系 对 fs 和 ft 进行 比较 ,如 果 关 系 成 立 , 则 置 浮 点 条 件 码 FPConditionCode 
(ce) 为 1, 否则 置 为 0。 


22. CFCI1 


名 称 : 浮 点 控制 寄存 器 的 内 容 传送 至 整数 寄存 器 
指令 格式 


CEC1 rt, fs 
功能 说 明 : 


i1f fs=0+hen 

temp<—FIR 
elseif fs = 25 then 

temp<—0 24 || FCSR 31..25 || FCSR 23 
elseif fs = 26 then 
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temp<—0 14 || FCSR 17..12 || 05 || FCSR 6..2 ||02 
elseif fs = 28 then 

temp<—0 20 || FCSR 11.7 || 0 4 || FCSR 24 || FCSR 1..0 
elseif fs = 31 then 

temp<—FCSR 
else 

temp<—UNPREDICTABLE 
endif 

GPR[rt]<—sign extend(temp ) 


下 同 。 
23.CTC1 


名 称 : 整数 寄存 器 的 内 容 传送 至 浮 点 控制 寄存 器 


指令 格式 ， 
31 260 25 21 20 16 15 11 10 0 
COP1 CT 0 
rt fs 
010001 00110 UUU 0000 0000 
6 可 本 9 11 
符号 指令 : 
CTIC1 rt,fs 
功能 说 明 : 


将 rt 送 给 由 fs 指定 的 FCSR 中 。 
24. CVT.D. fmt 


名 称 : 转换 成 双 精 度 浮 点 数 


指令 格式 : 
31] 20 25 1 20 16 15 11 10 6 5 0 
COP1 0 CVT.D 
fmt fs fd 
010001 D00000 100001 
6 5 9 5 5 6 
符号 指令 


CVT.D.S fd, fs 
CVT.D.W fd,fs 
CVT.D.L fd,fs 
把 fs 中 的 数据 转换 成 双 精 度 浮 点 数 , 送 给 fd。fs 中 的 数据 可 以 是 32 位 整数 (用 W 
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表示 ) .64 位 整数 (用 世 表示) 或 单 精度 浮 点 数 ( 用 S 表示 )。 
25. CVT.L. fmt 


名 称 : 浮 点 数 转 换 成 64 位 整数 。 


指令 格式 : 
31 20 25 2] 20 16 15 11 10 6 5 0 
COP1 0 CVT.L 
fmt : fs fd 
010001 QQ0000 100101 
6 5 5 5 5 6 
符号 指令 : 


CVT.L.S fd,fs 
CVT.L.D fd,fs 


功能 说 明 : 
把 fs 中 的 浮 点 数 转换 成 64 位 整数 , 送 给 fd。fs 中 的 数据 可 以 是 单 精 度 浮 点 数 ( 用 S 
表示 ) ,也 可 以 是 双 精 度 浮 点 数 ( 用 DD 表示 )。 


20. CVT.S. fmt 


名 称 : 转换 成 单 精度 浮 点 数 


指令 格式 : 
31 20 25 2] 20 16 15 11 10 6 5 0 
COP1 0 CVT.S 
fmt : fs fd 
010001 UUUUU 100000 
6 5 5 5 5 6 
符号 指令 : 


CVT.S.D fd,fs 
CVT. S.W fd, fs 
CVT.S.L fd,fs 


功能 说 明 : 
把 算 中 的 数据 转换 成 单 精 度 浮 点数 , 送 给 fd。f 中 的 数据 可 以 是 32 位 整数 (用 W 
表示 )、64 位 整数 (用 L 表示 ) 或 双 精 度 浮 点 数 ( 用 D 表示 )。 


27. CVT. W. fmt 


名 称 : 浮 点 数 转换 成 32 位 整数 
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COP1 CVT.W 
010001 00000 100100 


符号 指令 : 


CVT.W.S fd,fs 
CVT. W.D fd,fs 


功能 说 明 : 
把 fs 中 的 浮 点 数 转换 成 32 位 整数 , 送 给 fd。fs 中 的 数据 可 以 是 单 精度 浮 点 数 (用 S 
表示 ), 也 可 以 是 双 精 度 浮 点 数 ( 用 DD 表示 )。 


28. DADD 


名 称 : 双 字 寄存 硕 加 
指令 格式 : 


20 25 9 0 


SPECIAL DADD 
000000 QO0000 101100 


符号 指令 : 

DADD rd,rs,rt 

功能 说 明 : 

rd<—rst+ rt 

对 rs 和 rt 中 的 64 位 的 整数 进行 加 法 运算 ,结果 放 入 rd, 按 有 符号 数 操作 。 
29. DADDI 


名 称 : 双 字 立即 值 加 
指令 格式 : 


20 25 


DADDI 
Immediate 
011000 
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符号 指令 
DADDI rt, rs, immediate 
功能 说 明 . 

rt<—rs+ immediate 


把 带 符 号 的 16 位 立即 值 immediate 与 rs 中 的 64 位 整数 相 加 ,结果 放 入 rt, 按 有 符号 
数 操作 。 


30. DADDIU 


名 称 : 双 字 无 符号 立即 值 加 
指令 格式 ， 


31 20 25 el 20 16 15 0 


immediate 


符号 指令 : 

DADDIU rt, rs, immediate 

功能 说 明 . 

rt<—rs+ immediate 

把 带 符 号 的 16 位 立即 值 immediate 与 rs 中 的 64 位 整数 相 加 ,结果 放 入 rt, 按 无 符号 


31. DADDU 


名 称 : 双 字 无 符号 加 
指令 格式 ， 


31 26 25 21 
SPECIAL 
rs 
000000 
6 5 


符号 指令 : 
DADDU rd, rs, rt 


功能 说 明 : 


20 16 15 11 10 6 5 0 
0 DADDU 
rt rd | 四 
UUUUU 101101 
5 6 


rd<—rs+rt 
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对 rs 和 rt 中 的 64 位 的 整数 进行 加 法 运算 ,结果 放 和 人 入 rd, 按 无 符号 数 操作 。 
32. DDIV 


名 称 : 双 字 寄存 天 除 
指令 格式 : 


| 20 25 21 


SPECIAL 
IS 
000000 
6 5 


符号 指令 : 
DDIV rs, rt 


能 说 明 . 


20 16 15 6 
0 DDIV 
it 
00 0000 0000 011110 
9 10 


(LO, HI)<—rs/rt 


两 个 64 位 整数 相 除 ,64 位 商 送 特殊 寄存 硕 LO,64 位 余数 送 特殊 寄存 需 HI, 按 有 符 
导数 操作 。 


33. DDIVU 


指令 格式 ， 


al 20 25 21 


SPECIAL 
000000 
6 5 


符号 指令 : 
DDIVU rs,rt 


能 说 明 . 


20 l6 15» 6 i 
0 DDIVU 
It 
00 0000 0000 011111 
9 10 


(LO, HI)<—rs/rt 
两 个 64 位 整数 相 除 ,64 位 商 送 LO,64 位 余数 送 HI, 按 无 符号 数 操作 。 
34. DIV 


名 称 : 32 位 寄存 癌 际 
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31 20 25 21 


SPECIAL 
半 
000000 
6 5 


符号 指令 : 
DIV rs, rt 


功能 说 明 : 


20 16 15 6 
rt 
9 10 


(LO, HI)<—rs/rt 
两 个 32 位 整数 相 除 ,得 到 的 32 位 商 按 符 号 位 扩展 后 送 LO,32 位 余数 按 符 号 位 扩展 
后 送 HI, 按 有 符号 数 操作 。 


353. DIV. fmt 


指令 格式 ， 
31] 20 25 2 20 16 15 1]1 10 6 5 0 
COP1 DIV 
fmt ft fs fd 
010001 000011 
6 5 5 5 5 6 
符号 指令 


DIV. S fd,fs,ft 
DIV.D fd, fs, ft 


功能 说 明 : 

fd<—fs/ft 

把 两 个 浮 点 寄存 带 fs 和 ft 中 的 浮 点 数 进行 除法 运算 ,第 来 放 入 fd。 如 来 两 个 操作 数 
是 单 ( 双 ) 精 度 的 , 则 结果 也 是 单 ( 双 ) 精 度 的 ,指令 中 分 别 用 后 级 . S( 或 .D) 来 表示 。 

30. DIVU 
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SPECIAL DIVU 
000000 00 09000 0000 O11011 


符号 指令 : 
DIVU rs, rt 
功能 说 明 : 
(LO, HI)<—rs/rt 


两 个 32 位 整数 相 除 ,32 位 商 按 符号 位 扩展 后 送 LO,32 位 余数 按 符号 位 扩展 后 送 
HI, 按 无 符号 数 操作 。 


37. DMFCI 


名 称 : 从 浮 点 琳 存 带 传 送 双 字 到 整数 寄存 带 
指令 格式 : 


20 25 


COP1 
010001 00001 000 0000 0000 


符号 指令 : 
DMFC1 rt,fs 
功能 说 明 : 
rt<—fs 


38,. DMTCI1 


名 称 : 从 整数 寄存 器 传送 双 字 到 浮 点 寄存 器 
指令 格式 ， 


20 25 


LOP1 
010001 00101 000 0000 0000 
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符号 指令 ; 
DMTC1] rt,fs 
功能 说 明 : 
fs<—rt 
39,. DMULT 


名 称 : 双 字 寄 存 器 乘 
指令 格式 ， 


31 20 25 21 


SPECIAL 
IS 
000000 
6 5 


符号 指令 : 
DMULT rs,rt 


功能 说 明 


20 16 15 6 
0 DMULT 
Tt 
00 0000 0000 011100 
9 10 


(LO, HI)=<—rsx rt 


两 个 64 位 整数 相 乘 ,产生 128 位 的 积 。 其 低 64 位 送 LO ,高 64 位 送 HI, 按 有 符号 数 


40. DMULTU 


指令 格式 ， 


31 20 25 21 


SPECIAL 
工 号 
000000 
6 5 


符号 指令 : 
DMULTU rs,rt 


功能 说 明 : 


20 1l6 15 6 5 0 
0 DMULTU 
It 
00 0000 UUUU 011101 
9 10 6 


(LO, HI)<—rs x rt 


118 计算 机 系统 结构 实践 教程 (第 2 版 ) 
两 个 64 位 整数 相 乘 ,产生 128 位 的 积 。 其 低 64 位 送 LO, 高 64 位 送 HI1, 按 无 符号 数 
操作 。 
41. DROTR 


名 称 : 双 字 循环 石 移 
指令 格式 : 


31 26 25 22 21 20 16 15 11 10 6 
SPECIAL R DSRL 
: 0000 rt rd Sa 
UUUUUU 1 111010 
6 4 1 5 5 9 


符 = 指 令 和 
DROTR rd, rt, sa 
功能 说 明 : 


rd 一 rt 中 的 双 字 循环 右 移 ; 
移动 的 位 数 由 sa 给 出 (0 一 31) 。 


42. DROTRYV 


名 称 : 双 字 按 变量 循环 右 移 
指令 格式 ， 


31 20 25 


2] 20 16 15 ll 10 了 6 5 0 
SPECIAL : R DSRLYV 
: rs rt rd 0000 z 
UUUUUU 1 O10110 
6 S 5 5 4 1 6 


让 号 指令 : 
DROTRV rd,rt,rs 


功能 说 明 : 
rd< rt 中 的 双 字 循环 右 移 ; 
移动 的 位 数 由 寄存 器 rs 的 最 低 6 位 给 出 (0 一 63) 。 


43. DSLL 


名 称 : 双 字 逻 和 罩 左 移 
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SPECIAL DSLL 
000000 00000 111000 


符号 指令 ， 
DSLL rd, rt, sa 


功能 说 明 : 
rd 一 rt 中 的 双 字 逻辑 左 移 ; 
移动 的 位 数 由 sa 给 出 (0 一 31) 。 


44. DSLLY 


名 称 : 双 字 按 变 量 罗 辑 左 移 
指令 格式 : 


20 25 9 0 


SPECIAL DSLLYV 
000000 QO0000 010100 


符号 指令 : 
DSLLV rd,rt,rs 


功能 说 明 : 
rd<rt 中 的 双 字 逻辑 左 移 ; 
移动 的 位 数 由 寄存 器 rs 的 最 低 6 位 给 出 (0 一 63) 。 


45. DSRA 


指令 格式 ， 


20 25 9 0 


SPECIAL DSRA 
000000 00000 111011 
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符号 指令 : 
DSRA rd,rt, sa 


功能 说 明 : 
rd 一 rt 中 的 双 字 算术 右 移 ; 
移动 的 位 数 由 sa 给 出 (0 一 31) 。 


406. DoSRAY 


指令 格式 : 
20 16 15 11 10 6 5 0 
0 DSRAV 
rt rd 
O0000 010111 
5 本 5 6 


31 26 25 21 
ey em 
rs 
000000 
b 9 


符号 指令 
DSRRAV rd,rt,rs 
功能 说 明 : 


rd< rt 中 的 双 字 人 算 木 右 移 ; 
移动 的 位 数 由 寄存 如 rs 的 最 低 6 位 给 出 (0 一 63) 。 


47. DSRL 


名 称 : 双 字 迎 辑 右 移 
指令 格式 : 


31 26 25 22 21 20 16 15 11 10 6 5 0 
SPECIAL R DSRL 
0000 rt a ee 
000000 0 111010 
6 4 ] 9 9 9 b 


DSRL rd, rt, sa 

功能 说 明 : 

rd 一 rt 中 的 双 字 逻辑 右 移 ; 
移动 的 位 数 由 sa 给 出 (0 一 31) 。 
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48. DSRLYV 


名 称 : 双 字 按 变量 逻辑 右 移 
指令 格式 ， 


20 29 


SPECIAL DSRLV 
0000 
000000 010110 


符号 指令 . 
DSRLV rd,rt,rs 


功能 说 明 . 
rd 一 rt 中 的 双 宇 逻辑 右 移 ; 
移动 的 位 数 由 寄存 器 rs 的 最 低 6 位 给 出 (0 一 63) 。 


49. DSUB 


名 称 : 双 字 寄存 器 减 
指令 格式 ， 


20 25 5 0 


SPECIAL DSUB 
000000 00000 101110 


符号 指令 : 

DSUB rd, rs, rt 

功能 说 明 : 

rd<—rs— rt 

整数 寄存 需 rs 和 rt 中 的 两 个 64 位 整数 进行 减法 运算 ,结果 送 入 rd, 按 有 符号 数 操作 。 


Ss0. DSUBU 


指令 格式 ， 


20 25 


SPECIAL DSUBU 
000000 00000 101111 
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符号 指令 : 

DSUBU rd, rs, rt 

功能 说 明 : 

rd<—rs— rt 

整数 寄存 硕 rs 和 rt 中 的 两 个 64 位 整数 进行 减法 运算 ,结果 送 入 rd, 按 无 符号 数 操作 。 
sl. J 


名 称 : 跳 转 
指令 格式 : 


J 
instr_ index 
000010 


符号 指令 ， 


可 target 


功能 说 明 : 

无 条 件 转 移 到 目标 地 址 target。 

target 的 确定 方法 : 把 26 位 instr_index 左 移 2 位 后 , 代 符 当前 PC( 指 问 本 转移 指令 
的 下 一 条 指令 ) 的 低 28 位 (PC2.。) 。 


32. JAL 


名 称 : 跳 半 并 链接 
指令 格式 : 


31 20 25 0 


JAL 
000011 instr Index 


b 20 
符号 指令 ， 
JAL target 


功能 说 明 : 
无 条 件 转 移 到 目标 地 址 target, 并 将 返回 地 址 保存 到 R31。 
target 的 确定 方法 : 把 26 位 instr index 左 移 2 位 后 , 代 符 当前 PC( 指 问 本 转移 指令 
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的 下 一 条 指令 ) 的 低 28 位 (PC 。) 。 


S53. JALR 
名 称 : 寄存 器 跳 转 并 链接 
指令 格式 : 
26 25 
SPECIAL 时 JALR 
000000 00000 汪 001001 
符号 指令 : 
JALR rs (默认 : rd= 31) 
JALR rd,rs 
功能 说 明 ; 
无 条 件 转移 到 寄存 器 rs 给 出 的 地 址 ,并 将 返回 地 址 保存 到 rd。 
ss4. JR 
名 称 : 寄存 硕 跳 转 
指令 格式 ， 
20 29 
SPECIAL 
000000 00 0000 0000 001000 
符号 指令 : 
JR rs 
功能 说 明 : 
无 条 件 转移 ,转移 目标 地 址 由 rs 给 出 。 
s5,. LB 
名 称 : 取 有 符号 字 方 
指令 格式 
20 25 


offset 
100000 
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符号 指令 ， 
LB rt, offset(base) 
能 说 明 : 
rt<—memory|[ base + offset] 


从 存储 侨 读 出 一 个 字 市 的 数据 , 按 符 号 位 扩展 后 , 送 入 rt。 
访 存 地 址 : 寄存 大 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 仿 移 量 offset。 


S56. LBU 


指令 格式 ， 


1 26 25 21 20 1l6 1» 0 
LBU 


100100 


LBU rt, offset (base) 
能 说 明 : 
rt<—memory| base + offset | 


从 存储 带 读 出 一 个 字 节 的 数据 , 按 0 扩展 后 , 送 入 rt。 
访 存 地 址 : 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 俩 移 量 offset。 


37. LD 

名 称 : 取 双 字 

指令 格式 ， 

31 20 25 21 20 1l6 15 0 


LD 


110111 


符号 指令 ， 


ID rt, offset(base) 
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功能 说 明 : 
rt<—memory| base + offset|] 


从 存储 器 读 出 一 个 64 位 的 数据 , 送 入 rt。 
访 存 地 址 : 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偏 移 量 offset。 


s8. LDCI1 


名 称 : 取 双 字 到 浮 点 寄存 遂 
指令 格式 : 


“| 206 25 21 20 1l6 1» 0 
LDL1 


1 10101 


符号 指令 . 

LDC]1 ft,offset(base) 
功能 说 明 : 

ft< -memory[ base + offset| 


从 存储 器 读 出 一 个 64 位 数据 , 送 入 ft。 
访 存 地 址 : 寄存 六 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 俩 移 量 offset。 


3S9.。LDXC1 


名 称 : 变 址 取 双 字 到 浮 点 寄存 从 


指令 格式 : 
20 16 15 11 10 6 5 0 
0 LDAXC1l 
| 
00000 000001 
9 9 9 6 


31 26 25 21 
COP1X 
base 
010011 
6 5 


符号 指令 : 
LDXC1 fd, index(base) 


功能 说 明 : 


fd<—memory| base + index | 


从 存储 器 读 出 一 个 64 位 数据 , 送 入 fd。 
访 存 地 址 : 寄存 硕 base 的 内 容 十 变 址 寄存 天 index 的 内 容 。 
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60. LH 


名 称 : 取 半 了 字 
指令 格式 : 


31 20 25 21 


LH 
z base 
100001 

6 5 


符号 指令 ， 
LH rt, offset(base) 


功能 说 明 : 


20 16 15 0 
ee 
9 16 


rt<—memorv|[ base + offset| 

从 存储 天 庶 出 一 个 16 位 数据 , 按 和 从 号 位 扩展 后 ,送信 rt。 

访 存 地 址 : 寄存 大 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 
01.LHU 


名 称 : 取 无 符号 半 字 
指令 格式 : 


| 20 29 21 


LHU 
z base 
100101 
6 5 


符号 指令 ， 
LHU rt, offset(base) 


功能 说 明 : 


20 16 15 0 
| 
9 16 


rt<—memory|[ base + offset| 


从 存储 融 访 出 一 个 16 位 数据 , 按 0 扩展 后 , 送 入 rt。 
访 存 地 址 ; 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 


02. LUI 


名 称 : 取 立 即 值 高 位 
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Immediate 


符号 指令 : 
LUI rt, immediate 


功能 说 明 ， 
16 位 immediate 低位 拼接 16 位 0, 按 符号 位 扩展 后 ,送信 rt。 


63. LW 


名 称 : 取 字 
指令 格式 ， 


31 20 25 21 


LW 
base 

100011 
6 5 


符号 指令 : 
LW rt, offset(base) 


功能 说 明 : 


20 l6 15 0 
9 16 


rt<—memory|[ base + offset] 


从 存储 天 该 出 一 个 32 位 数据 , 按 和 从 号 位 扩展 后 , 送 入 rt。 
访 存 地 址 : 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 俩 移 量 offset。 


64. LWCI 


名 称 : 取 字 到 浮 点 寄存 带 
指令 格式 : 


有 | 20 25 2]1 20 16 15 0 
LWCIl 


110001 
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符号 指令 : 

LWC1 ft, offset(base) 
功能 说 明 ; 

ft<—memory[ base + offset |] 


从 存储 项 该 出 一 个 32 位 数据 , 送 入 ft 的 低 32 位 。 
访 存 地 址 : 寄存 兹 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 俩 移 量 offset。 


65. LWU 
指令 格式 ， 


31 20 25 21 


LWU 
base 
100111 
6 5 


符号 指令 : 
LWU rt, offset(base) 


功能 说 明 : 


20 16 15 0 
9 16 


rt<—memorv|[ base + offset| 


从 存储 副 读 出 一 个 32 位 数据 , 按 0 扩展 后 , 送 入 rt。 
访 存 地 址 : 寄存 硕 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 


00. LWXCI 


名 称 : 变 址 取 单 字 到 浮 点 寄存 从 


指令 格式 : 
31 20 25 21 20 16 15 11 10 6 9 0 
COP1X 0 LWXCIl 
四 base fd 
010011 O00000 UUUUUU 
6 5 5 5 5 6 
符号 指令 ， 
LWXC1 fd, index( base) 
功能 说 明 : 


fd<—memory| base + index | 
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从 存储 融 读 出 一 个 32 位 数据 , 送 入 fd 的 低 32 位 。 
访 存 地 址 : 寄存 大 base 的 内 和 容 十 变 址 寄存 套 index 的 内 容 。 
67. MFCI1 


名 称 : 从 浮 点 寄存 估 传 送 32 位 至 整数 寄存 从 


指令 格式 : 
20 16 15 ll 10 0 
0 
rt fs z 
oe 
5 5 11 


31 20 25 21 


COP1 MF 
010001 00000 
6 9 


符号 指令 
MFC] rt,fs 


rt<-fs 的 低 32 位 按 符号 位 扩展 后 


68. MFHI 


名 称 : 从 HI 传送 至 整数 寄存 需 
指令 格式 : 


31 20 25 16 


SPECIAL 0 
000000 00 0000 0000 
6 10 


符号 指令 : 
MFHI rd 


功能 说 明 : 


15 ]1 10 6 
0 MFPFHI 
rd 
00000 010000 
5 5 


rd=<—HI 
把 特殊 寄存 器 HI 的 内 容 送 入 rd。 
69. MFLO 


名 称 : 从 LO 传送 至 整数 寄存 从 
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SPECIAL MFLO 
000000 00 0000 0000 QO0000 010010 


符号 指令 : 

MFLO rd 

功能 说 明 . 

rd<—LO 

把 特殊 寄存 器 LO 的 内 容 送 入 rd。 
70. MOV. fmt 


名 称 : 浮 点 传送 


20 25 


LCOP1 
010001 00000 000110 


MOV. S fd ,fs 
MOV.D fd ,fs 


功能 说 明 : 
fd=<—fs 


把 浮上 点 寄存 着 fs 中 的 数据 传送 到 许 点 寄存 甫 ft。MOV. S 用 于 单 精度 ,MOV.D 用 
于 双 精 度 。 


71. MOVF 
名 称 : 浮 点 条 件 码 为 假 时 整数 传送 
指令 格式 : 


18 17 16 15 11 


SPECIAL MOVCI 
000000 00000 000001 
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符号 指令 : 

MOVE rd, TS， CC 

功能 说 明 : 

if FPConditionCode(cc) = 0 then rd<—rs 

当 浮 点 条 件 码 cc 为 假 时 ,将 rs 中 的 整数 传送 到 rd。 


72. MOVF. fmt 


名 称 : 浮 点 条 件 码 为 假 时 浮 点 传送 
指令 格式 ， 


18 11 16 15 11 


COP1 MOVCF 
010001 O010001 


符号 指令 : 


MOVE. S fd fs,cc 
MOVE.D fd, fs, cc 


if FPConditionCode(cc) = 0 then fd<—fs 


当 浮 点 条 件 码 cc 为 假 时 ,将 fs 中 的 浮 点 数 传 送 到 fd。 指 令 名 后 级“. S” 和 “. D” 分 别 
表示 单 精度 和 双 精 度 。 


73. MOVN 


名 称 : 不 等 于 0 传送 
指令 格式 : 


20 25 


SPELIAL MOVN 
000000 00000 001011 


符号 指令 ， 
MOVN rd, rs,rt 
功能 说 明 : 


If(rt!= 0) then rd<—rs 
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当 通 用 寄存 天 rt 中 的 整 效 不 为 0 时 ,把 rs 中 的 整数 传送 到 rd。 
74. MOVN. fmt 


名 称 : 不 等 于 0 浮 点 传送 
指令 格式 ， 


符号 指令 ， 


MOVN. S fd, fs,rt 
MOVN.D fd, fs, rt 


功能 说 明 : 

If(rt!= 0) then fd<—fs 

当 通 用 寄存 器 rt 中 的 整数 不 为 0 时 ,把 fs 中 的 浮 点 数 传送 到 fd。 
75. MOVT 


名 称 : 浮 点 条 件 码 为 真 时 整数 传送 
指令 格式 


18 17 16 15 11 


SPECIAL MOVCI 
000000 0Q00000 000001 


符号 指令 : 

MOVT rd, rs, cc 

功能 说 明 : 

if FPConditionCode(cc) = 1 then rd<—rs 

当 浮 点 条 件 码 cc 为 真 时 ,将 rs 中 的 整数 传送 到 rd。 


76. MOVT. fmt 


名 称 : 浮 点 条 件 码 为 真 时 浮 点 传送 
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18 17 16 15 11 


COP] MOVCF 
010001 010001 


符号 指令 ， 


MOVT.S fd,fs,cc 
MOVT.D fd, fs,cce 


功能 说 明 . 
if FPConditionCode(cc) = 1 then fd<-fs 


当 浮 点 条 件 码 cc 为 真 时 ,将 fs 中 的 浮 点 数 传送 到 fd。 指 令 名 后 级“. S” 和 “. D” 分 别 
表示 单 精 度 和 双 精 度 。 


77. MOVZ 
指令 格式 : 


20 25 


SPECIAL MOVZ 
000000 O00000 001010 


符号 指令 ， 

MOVZ rd, rs, rt 

功能 说 明 : 

If(rt = 0)then rd<-rs 

当 通 用 寄存 硕 rt 中 的 整数 为 0 时 ,把 rs 中 的 整数 传送 到 rd。 
78. MOVEZA. fmt 


名 称 : 等 于 0 浮 点 传送 
指令 格式 ， 


20 25 


COP1 MOVZ 
010001 010010 
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符号 指令 : 


MOVZ. S fd fs,rt 
MOVZ. D fd, fs, Tt 


功能 说 明 . 

If(rt = 0) then fd<—fs 

当 通 用 寄存 器 rt 中 的 整数 为 0 时 ,将 fs 中 的 浮 点 数 传送 到 fd。 指 令 名 后 级 “. S” 和 
“.D” 分 别 表 示 单 精度 和 双 精 度 。 

79. MTC1 


名 称 : 从 整数 琳 存 带 传 送 32 位 到 浮 点 寄存 盖 


指令 格式 : 
20 16 15 ll 10 0 
0 
UUU 0000 0000 
9 9 11 


31 26 25 21 
COP]1 MT 
6 9 


符号 指令 : 

MTC1 rt, fs 

功能 说 明 : 

fs 的 低 32 位 一 rt 

把 通用 寄存 融 rt 中 的 低 32 位 传送 到 浮 点 寄存 副 fs 的 低 32 位 。 


80. MTHI 


名 称 : 从 整数 寄存 天 传送 至 HI 
指令 格式 : 
si 26 25 21 20 6 5 0 


MTHI 
010001 


符号 指令 : 
MTIHI rs 


功能 说 明 : 


HI<—rs 
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把 通用 案 存 旨 rs 中 的 整数 传送 到 特别 寄存 部 HI1。 


81. MTLO 


名 称 : 从 整数 于 和 存 龙 传送 至 LO 


指令 格式 : 

31 20 25 21 20 6 5 0 
MILO 
010011 

6 9 15 6 

符号 指令 : 

MILO rs 

功能 说 明 : 

LU< 一 IS 


把 通用 寄存 副 rs 中 的 整数 传送 到 特别 寄存 大 LO。 
82. MUL 


指令 格式 ， 


31 20 25 21 


SPECIAL? : 
011100 
5 


20 16 15 11 10 6 5 0 
0 MUL 
rt 
QO0000 000010 
5 5 5 6 


MUL rd, rs,rt 
rd<—rsxXxrt 


通用 寄存 器 rs 和 rt 中 的 两 个 32 位 带 符号 数 相 乘 ,乘积 的 低 32 位 按 符号 位 扩展 后 送 
和 人 rd。 


83. MUL. fmt 


名 称 : 浮 点 来 
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指令 格式 
31 20 25 21] 20 160 15 1]1 10 6 5 0 
COP]1 MUL 
fmt ft fs fd 
010001 000010 
6 5 5 5 5 6 


MUL. S fd, fs, ft 
MUL.D fd, fs, ft 


功能 说 明 : 
fd<—fs x ft 


浮 点 寄存 器 fs 和 ft 中 的 浮 点 数 进行 乘法 运算 ,结果 放 入 fd。 指 令 名 后 级 “. S” 和 
“. D” 分 别 表示 单 精度 和 双 精 度 。 


84. MULT 


名 称 : 案 存 带 乘 2 
指令 格式 ， 


31 206 225 21 


SPECIAL 
网 
000000 
6 5 


符号 指令 : 
MULT rs, rt 


功能 说 明 : 


20 16 15 6 5 0 
0 MULT 
it 
00 0000 0000 011000 
9 10 6 


(LO, HI)<—rs X rt 


rs 和 rt 中 的 两 个 32 位 带 符号 数 相 乘 ,乘积 的 低 32 位 按 符号 位 扩展 后 送 入 特殊 寄存 
器 LO 〇 ,高 32 位 按 符号 位 扩展 后 送 入 特殊 寄存 器 HI1。 


83. MULTU 


名 称 : 无 伯 写 寄存 遂 来 
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SPECIAL MULTU 
000000 00 0000 0000 011001 


符号 指令 : 
MULTU rs, rt 
功 能 说 明 : 
(LO, HI)<—rs Xx rt 


通用 寄存 着 rs 和 rt 中 的 两 个 32 位 无 人 特写 数 ( 融 位 再 加 一 位 0) 相 乘 ,乘积 的 低 32 位 
按 符号 位 扩展 后 送 入 特殊 寄存 器 LO, 高 32 位 按 符号 位 扩展 后 送 入 特殊 寄存 器 HI。 


806. NEG. fmt 


名 称 : 译 点 数 求 负 
指令 格式 : 


20 25 


LOP1 NEG 
010001 00000 000111 


符号 指令 


NEG. S fd, fs 
NEG.D fd, fs 


功能 说 明 : 

fd<—— fs 

把 浮 点 寄存 器 fs 中 的 数 求 负 后 , 送 入 fd。 
87. NOP 


指令 格式 : 


20 25 


SPEGLAL SLL 
000000 0Q0000 00000 00000 00000 UUUUUU 
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NOP 
功能 说 明 . 
SLL r0,r0,0 
88. NOR 


名 称 : 或 非 
指令 格式 : 


3] 206 25 21 
SPECIAL 
rs 
000000 
6 3 


NOR rd, rs,rt 
功能 说 明 : 
rd< -TS NOR rt 


通用 寄存 天 rs 和 rt 中 的 两 个 32 位 数 按 位 进行 逻辑 "或 非 " 操 作 , 绪 采 放 人 rd。 


20 16 15 ll 10 6 5 0 
0 NOR 
rt rd 
QO0000 100111 
5 5 5 6 


89. OR 


名 称 : 或 
指令 格式 : 


31 20 25 21 
SPECIAL 
rs 
000000 
6 3 


符号 指令 
OR rd,rs,rt 
功能 说 明 ， 
rd<—rs OR rt 


通用 寄存 天 rs 和 rt 中 的 两 个 32 位 数 按 位 进行 加 辑 或 操作 ,结果 放 入 rd。 


20 16 15 ll 10 6 5 0 
0 OR 
rt rd 
O0000 100101 
5 5 5 6 
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90. ORI 


名 称 : 立即 值 或 


指令 格式 ， 
31] 20 25 2] 20 16 15 0 
ORI 
: rs rt immediate 
001101 
6 5 16 
符号 指令 ， 


ORI rt,rs, immediate 

功能 说 明 : 

rt<—rs OR immediate 

16 位 立即 值 immediate 按 0 扩展 后 ,和 rs 的 内 容 按 位 进行 逻辑 或 运算 。 
91. ROTR 


名 称 : 循环 右 移 
指令 格式 ， 


31 26 25 22 21 20 16 15 11 10 6 5 0 
0000 rt 尖 
000000 1 000010 
0 1 ] 9 9 9 b 


符号 指令 : 
ROTR rd,rt, sa 


功能 说 明 : 
把 rt 中 的 低 32 位 进行 循环 右 移 , 按 符号 位 扩展 后 放 人 rd; 
移动 的 位 数 由 sa 给 出 。 


92。ROTRY 


名 称 : 按 变 量 循环 右 移 
指令 格式 ， 


31 20 25 


21 20 6 15 11 10 7 6 5 0 
SPECIAL R SRLYV 
rs rt rd 0000 
O00000 1 O000110 
6 5 5 5 4 1 6 
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符号 指令 : 
ROTRYV rd,rt,rs 

通用 寄存 如 rt 中 的 低 32 位 进行 循环 右 移 , 按 和 从 号 位 扩展 后 放 入 rd; 
移动 的 位 数 由 寄存 器 rs 的 最 低 5 位 给 出 。 


93. SB 
指令 格式 ， 
31 26 25 21] 20 16 15 0 


SB 


101000 


符号 指令 . 

SB rt, offset(base) 

功能 说 明 : 

memory[ base + offset|]<—rt 


将 通用 寄存 硕 rt 中 数据 的 低 8 位 写 入 存储 带 。 
访 存 地 址 : 寄存 盖 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 


94. SD 
名 称 : 存 双 字 
31 20 25 21] 20 16 15 0 


SD 


111111 


符号 指令 ， 
SD rt, offset(base) 

功能 说 明 : 

memory[ base + offset|]<—rt 


将 通用 寄存 融 rt 中 的 双 字 与 人 存储 俗 。 
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访 存 地 址 : 寄存 兹 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 俩 移 量 offset。 
05。SDC1 


名 称 : 存 浮 点 寄存 天 中 的 双 字 


指令 格式 : 
20 16 15 0 
5 16 


31 20 25 21 


SDC1 
base 
111101 
6 5 


符号 指令 ， 
SDC1 ft,offset(base) 


功能 说 明 : 


memory[ base + offset|]<—ft 


将 浮 点 寄存 颖 ft 中 的 64 位 数据 写 人 存储 大 。 
访 存 地 址 : 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 


906. SDXCI1 


名 称 : 变 址 存 浮 点 寄存 从 中 的 双 字 


指令 格式 : 
20 16 15 ll 10 6 9 0 
Es 
00000 001001 
9 9 9 6 


本 20 25 21 


有 加 
base 
010011 
6 5 


符号 指令 : 
SDXC1 fs, index(base) 


功能 说 明 : 


memory[ base + offset]<—fs 


将 浮 点 宁 存 如 fs 中 的 64 位 数据 写 人 存储 天 。 
访 存 地 址 : 变 址 寄存 index 的 内 容 十 守 存 毅 base 的 内 容 。 


97. SEB 


名 称 : 字 三 和 从 号 位 扩展 
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指令 格式 
SPECIAL3 BSHFL 
Olllll O00000 10000 100000 
SEB rd, rt 
功能 说 明 : 


rd 一 rt 的 末 字 节 按 符号 位 扩展 


98. SEH 


名 称 : 半 字 符号 位 扩展 


指令 格式 : 
31 26 25 
SPECIAL3 BSHFL 
Olllll UUUUU 11000 100000 
符号 指令 ， 
SEH rd, rt 
功能 说 明 : 
rd 一 rt 的 低 16 位 按 和 从 号 位 扩展 。 
99, SsH 
名 称 : 存 半 字 
指令 格式 ， 
26 25 
EE 
101001 
符号 指令 ， 
SH rt, offset(base) 
功能 说 明 : 


memory| base + offset|]<—rt 
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将 通用 寄存 器 rt 中 的 低 16 位 数据 写 人 存储 器 。 
访 存 地 址 ; 寄存 如 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偏 移 量 offset。 
100, SLL 


名 称 : 逻辑 左 移 
指令 格式 : 


20 25 9 0 


SPECIAL SLE 
000000 QO0000 UUUUUU 


符号 指令 ; 
SLL rd,rt, sa 
功能 说 明 : 

Ta 一 Tt << sa 


把 rt 中 的 低 32 位 进行 逻 各 左 移 , 绪 采 按 符 号 位 扩展 ,然后 放 和 人 rd, 移 动 的 位 数 由 sa 
给 出 。 


101. SLLYW 


名 称 : 按 变量 逻辑 左 移 
指令 格式 ， 


20 25 9 0 


JPEGCLAL SLLV 
000000 QO0000 000100 


符号 指令 . 
SLLV rd,rt,rs 
功能 说 明 : 
TaohIt << rs 


将 通用 寄存 硕 rt 中 的 低 32 位 进行 逻辑 左 移 ,结果 按 符号 位 扩展 ,然后 放 和 信 rd; 
移动 的 位 数 由 寄存 器 rs 的 低 5 位 给 出 。 


102. SLT 
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指令 格式 
31 20 25 21] 20 16 15 11 10 6b 5 0 
SPECIAL 0 sSLT 
: rs rt rd : : 
000000 QO0000 101010 
6 9 9 9 9 b 
符号 指令 ， 
SLT rd, rs,rt 
if (rs < rt) then rd<—1(00..01) else rd<—0 
103,. SLTI 


名 称 : 立即 值 小 于 比较 
指令 格式 : 


| 20 25 21 
1 By | 
rs 
001010 
b 9 


符号 指令 : 
SLTI rt,rs, limmediate 


功能 说 明 : 


20 16 15 0 
9 16 


if (rs < imm) then rt<—1 else rt<—0 
其 中 imm 是 immediate 按 符号 位 扩展 后 的 值 , 按 有 符号 数 操作 。 
104. SLTIU 


名 称 : 无 符号 立即 值 小 于 比较 
指令 格式 ， 


31 20 25 < 20 l6 15 0 


immediate 
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符号 指令 : 

SLTIU rt, rs, immediate 

功能 说 明 . 

if (rs < imm) then rt<1 else rt<0 

其 中 imm 是 immediate 按 符 号 位 扩展 后 的 值 , 按 无 符号 数 操作 。 
105. SLTU 


名 称 : 无 符号 小 于 比较 
指令 格式 ， 


3 20 25 21 
SPECIAL 
rs 
000000 
b 3 


符号 指令 ， 
SLIU rd, rs,rt 


功能 说 明 : 


20 16 15 11 10 6 5 0 
0 SLTU 
rt rd 
QO0000 101011 
9 9 9 


if (rs < rt) then rd<—1 else rd<—0 
106. SQRT. fmt 


名 称 : 求 平方 根 


指令 格式 : 
31] 20 25 2 20 10 15 11 10 8 3 0 
COP1 0 SQRT 
fmt fs fd 
010001 00000 000100 
6 5 5 5 5 6 
符号 指令 ， 


SORT. S fd, fs 
SORT. D fd, fs 


功能 说 明 : 


fd<—SORT(fs) 
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求 寄存 器 fs 中 的 浮 点 数 的 平方 根 ,然后 送 入 学 点 寄存 器 {4d。 指 令 名 后 级 “. S” 和 
“. D” 分 别 表示 单 精度 和 双 精 度 ， 
107. SRA 


名 称 : 算术 石 移 
指令 格式 : 


20 25 


SPECIAL 
000000 00000 000011 


符号 指令 ， 
SRA rd,rt, sa 
功能 说 明 : 

rd<—rt >> sa 


对 寄存 盘 rt 中 的 低 32 位 进行 异 术 石 移 , 结 来 按 符 写 位 扩展 ,然后 放 入 寄存 龙 rd, 移 
动 的 位 数 由 sa 给 出 。 


108. SRAV 


名 称 : 按 变 量 算 术 右 移 
指令 格式 : 


20 25 


SPECIAL SRAV 
000000 00000 000111 


符号 指令 : 
SRAV rd,rt,rs 
功能 说 明 : 
rd<rt»> rs 


对 寄存 大 rt 中 的 低 32 位 进行 算术 右 移 , 绪 末 按 符 号 位 扩展 ,然后 放 人 知人 着 rd, 移 
动 的 位 数 由 寄存 器 rs 的 低 5 位 给 出 。 


109. SRL 


名 称 : 逻辑 右 移 
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指令 格式 
31 26 25 22 21 20 16 15 ll 10 6 5 0 
0000 rt rd Sa 
000000 0 000010 
6 4 1 5 5 5 6 


符号 指令 ， 


SRL rd, rt, sa 
功能 说 明 : 
ITd- 一 It >»>> sa 


对 寄存 天 rt 中 的 低 32 位 进行 逻辑 右 移 , 绪 打 按 符 号 位 扩展 ,然后 放 人 寄存 生 rd, 移 
动 的 位 数 由 sa 给 出 。 


110. SRLYV 


名 称 : 按 杰 量 逻 和 辑 石 移 
指令 格式 : 


20 25 


SPECIAL SRLYV 
0000 
000000 000110 


符号 指令 : 
SRLV rd, rt,rs 
功能 说 明 : 
rd<-rt>>rs 


对 寄存 天 rt 中 的 低 32 位 进行 逻辑 右 移 , 结 采 按 符号 位 扩展 ,然后 放 人 寄存 俘 rd, 移 
动 的 位 数 由 寄存 器 rs 的 低 5 位 给 出 。 


111. SUB 


名 称 : 整数 减 
指令 格式 : 


20 25 


SPECIAL 
000000 0Q0000 100010 
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SUB rd, rs,rt 
功能 说 明 : 
rd<rs— rt 


对 寄存 器 rs 和 rt 中 的 32 位 整数 进行 减法 运算 ,结果 按 符号 位 扩展 ,然后 送 入 rd, 按 
有 符号 数 操作 。 


112. SUB. fmt 


名 称 : 浮 点 减 


31 26 25 21 20 16 15 11 10 6 5 0 
COP1 z SUB 
z tmt ft fs fd 
010001 000001 
b 9 5 9 9 6 
符号 指令 ， 


SUB. S fd, fs, ft 
SUB.D fd, fs, ft 


功能 说 明 : 
fd<—fs— ft 


寄存 器 fs 和 寄存 器 ft 中 的 浮 点 数 进行 减法 运算 ,结果 送 入 浮 点 寄存 器 fd。 指 令 名 后 
.S” 和 “. D?* 分 别 表示 单 精度 和 双 精 度 。 


113. SUBU 


指令 格式 ， 
31 26 25 2] 20 16 15 11 10 6 5 0 
SPECIAL z 0 SUBU 
: rs rt rd 
000000 QO0000 100011 
6 5 5 5 加 6 
符号 指令 ， 


SUBU rd, rs, rt 
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功能 说 明 : 
rdrs— rt 


对 寄存 大 rs 和 rt 中 的 32 位 整数 进行 减法 运算 ,结果 按 和 从 号 位 扩展 ,然后 送 入 rd, 按 


114. SW 


名 称 : 存 字 
指令 格式 : 


站 | 20 25 21 


SW 
base 
101011 
6 5 


符号 指令 、 
SW rt, offset(base) 


功能 说 明 : 


20 16 15 0 
EE 
0 16 


memory[ base + offset]<—rt 


将 rt 中 的 低 32 位 数据 瑟 人 存储 痢 。 
访 存 地 址 : 寄存 化 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 


11S.SWC1 
名 称 : 存 浮 点 寄存 器 中 的 单字 
31 站 站 21 20 16 15 | 


SWC1 


111001 


符号 指令 : 
SWC1 ft,offset(base) 
功能 说 明 : 
memory| base + offset |<—ft 


将 ft 中 的 低 32 位 数据 写 入 存储 颖 。 
访 存 地 址 : 寄存 天 base 的 内 容 十 经 有 符号 32 位 扩展 后 的 偶 移 量 offset。 
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116. SWXCIl 


名 称 : 变 址 存 浮 点 寄存 从 中 的 单字 


指 令 格 式 | 
20 16 15 11 10 b 5 0 
0 SWXC1 
~ UUUUU 001000 
9 9 n 6 


31 20 25 21 


COP1X 
base 
010011 
6 了 


SWXC1 fs, index(base) 


功能 说 明 : 


memory[ base + index|<—fs 


将 fs 中 的 低 32 位 数据 写 人 存储 天 。 
访 存 地 址 : 寄存 病 base 的 内 容 十 变 址 寄存 毅 index 的 内 容 。 


117. TEQ 


名 称 : 等 于 自 陷 
指令 格式 


31 20 25 21 


SPECIAL / 
000000 下 
6 5 


20 16 15 6 5 0 
a 
rt code 
110100 
5 10 6 


TEQ rs, rt 

功能 说 明 : 

If (rs = rt) then trap 

对 通用 寄存 僵 rs 和 rt 中 的 整数 按 有 符号 数 进行 比较 ,如 采 相 等 , 则 上 月 陷 。 
118. TEQI 


名 称 : 等 于 立即 值 目 陷 
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Immediate 


符号 指令 . 

TEQI rs, immediate 
功能 说 明 : 

If(rs= imm)then trap 


其 中 imm 是 immediate 按 符 号 位 扩展 后 的 值 。 
对 通用 寄存 器 rs 中 的 整数 和 扩展 后 的 立即 值 进行 比较 ( 按 有 符号 数 操作 ) ,如 果 它 们 
相等 , 则 上 自 陷 。 


119. TGE 


名 称 : 大 于 等 于 自 陷 
指令 格式 ， 


20 25 


SPECIAL 
code 
000000 110000 


符号 指令 : 

TOE rs,rt 

功能 说 明 : 
If(rs>= rt)then trap 


把 通用 寄存 大 rs 和 rt 中 的 整数 按 有 符号 数 进行 比较 ,如 果 rs 中 的 整数 大 于 等 于 rt 
中 的 整数 , 则 目 陷 。 


120. TGEI 


名 称 : 大 于 等 于 立即 值 目 陷 
指令 格式 : 


20 25 


REGIMM TGEI 
immediate 
000001 01000 
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符号 指令 : 
TGEI rs, Immed1late 
功能 说 明 ， 

If(rs>= imnm)then trap 


其 中 imm 是 immediate 按 和 从 号 位 扩展 后 的 值 。 
对 通用 寄存 天 rs 中 的 整数 和 扩展 后 的 立即 值 进行 比 较 ( 按 有 符号 数 操作 ) ,如 果 前 者 
大 于 等 于 后 者 , 则 上 自 陷 


121, TGEIU 


名 称 : 无 符号 数 大 于 等 于 立即 值 自 陷 
指令 格式 ， 


20 25 


REGIMM TGEIU 
Immediate 
000001 01001 


符号 指令 ; 
TGEIU rs, immediate 
功能 说 明 : 

If(rs>= imnm)then trap 


其 中 imm 是 immediate 按 符 号 位 扩展 后 的 值 。 
把 通用 寄存 硕 rs 中 的 数 和 扩展 后 的 立即 值 进行 比较 ( 按 无 从 号 数 操 作 ) ,如 果 前 者 大 
于 等 于 后 痢 , 则 目 隐 。 


122. TGEU 


名 称 : 无 符号 数 大 于 等 于 目 隐 
指令 格式 : 


20 25 


SPECIAL TGEU 
code 
000000 110001 


符号 指令 : 


TGEU Ts, It 
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功能 说 明 : 
If(rs> = rt)then trap 


把 通用 寄存 器 rs 和 rt 中 的 整数 按 无 符号 数 进行 比较 ,如 果 前 者 大 于 等 于 后 者 , 骨 
自 陷 。 


123. TLT 


指令 格式 ， 


206 25 


SPECIAL 
code 
O00000 110010 


符号 指令 . 

TLT rs, rt 

功能 说 明 : 

If(rs<rt)then trap 

把 通用 寄存 器 rs 和 rt 中 的 整数 按 有 符号 数 进行 比较 ,如 果 前 者 小 于 后 者 , 则 自 陷 。 
124. TLTI 


名 称 : 小 于 立即 值 自 陷 
指令 格式 : 


20 25 


REGIMM TLTI 
Immediate 
000001 01010 


符号 指令 : 


TLTI rs, immediate 

功能 说 明 : 

If rs< immediate then trap 
123. TLTIU 


名 称 : 无 符号 数 小 于 立即 值 自 陷 


154 计算 机 系统 结构 实践 教程 (第 2 版) 


REGIMM TLTIU 
Immediate 
000001 01011 


符号 指令 ， 
TLTIU rs, immediate 
功能 说 明 ， 

If(rs< imm)then trap 


其 中 imm 是 immediate 按 符 号 位 扩展 后 的 值 。 
把 通用 寄存 硕 rs 中 的 数 和 imm 进行 比较 ( 按 无 符号 数 操作 ) ,如 果 前 者 小 于 后 者 ， 


126. TLTU 


名 称 : 无 符号 数 小 于 目 陷 
指令 格式 : 


26 25 " 


则 目 陷 。 


SPECIAL TLTU 
code 
O00000 110011 


6 
符号 指令 : 
TLTU rs, rt 
功能 说 明 : 
If (rs< rt)then trap 
把 通用 寄存 带 rs 和 rt 中 的 整数 按 无 特写 数 进行 比较 ,如 末 前 者 小 于 后 者 , 则 日 陷 。 


127. TNE 


和 名称 : 不 等 于 目 陷 
指令 格式 ， 


20 25 


SPECIAL 
code 
O00000 110110 
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TNE rs, rt 
功能 说 明 

If (rs!= rt)then trap 

把 通用 案 存 大 rs 和 rt 中 的 整数 按 有 符号 数 进行 比较 ,如 采 两 者 不 相等 , 则 目 陷 。 
128. TNEI 


名 称 : 不 等 于 立即 值 日 陷 
指令 格式 : 


a 206 25 21 
REGIMM 
rs 
000001 
6 9 


符号 指令 : 
TNEI rs, immediate 


功能 说 明 : 


20 16 15 0 
TNEI 
Immediate 
OO1110 
$b 16 


If(rs!= imm)then trap 


其 中 imm 是 immediate 按 符 号 位 扩展 后 的 值 。 
把 通用 寄存 硕 rs 中 的 数 和 imm 按 有 符号 数 进行 比较 ,如 条 两 者 不 相等 , 则 月 陷 。 


129. TRUNC.L. fmt 


名 称 : 浮 点 数 苇 换 成 64 位 整数 


指 令 格 式 H 
31] 20 25 2 20 16 15 ll 10 6 5 0 
COP1 0 TRUNC.L 
fmt fs fd 
010001 00000 001001 
6b 和 3 9 时 6 
符号 指令 : 


TRUNC. L.S fd,fs 
TRUNC. L.D fd,fs 
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能 说 明 : 
fd<—fs 转换 成 64 位 整数 ; 
采用 绷 0 舍 入 法 ,指令 名 后 级 “. S” 和 “.D” 分 别 表 示 单 精度 和 双 精 度 。 
130. TRUNC. W. fmt 


名 称 : 浮 点 数 换 成 32 位 整数 
指令 格式 


LCOP1 TRUNC. W 
010001 00000 001101 


符号 指令 ， 


TRUNC. W. S fd,fs 
TRUNC. W.D fd,fs 


功能 说 明 ， 
fd<—fs 转换 成 32 位 整数 ; 
采用 绷 0 舍 入 法 ,指令 名 后 级 “.S” 和 “.D” 分 别 表 示 单 精度 和 双 精 度 。 


131. XOR 


名 称 : 异 或 
指令 格式 : 


26 25 


SPECIAL 
000000 QO0000 100110 


XOR rd, rs,rt 

功能 说 明 . 

rd<—rs XOR rt 

通用 寄存 硕 rs 和 rt 中 的 两 个 32 位 数 按 位 进行 逻辑 “ 异 或 ”操作 , 结 末 放 入 rd。 
132. XORI 
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Immediate 


符号 指令 : 

XORI rt,rs, limmediate 
功能 说 明 : 

It< TS XOR imm 


其 中 imm 是 immediate 按 0 扩展 后 的 但 。 
通用 寄存 更 rs 和 rt 中 的 两 个 32 位 数 按 位 进行 逻辑 “ 异 或 ”操作 ,结果 放 入 rd。 


附录 C 模拟 器 MIPSsim 的 汇编 语言 


1. 汇编 程序 语法 结构 


MIPSsim 的 汇编 程序 由 一 个 代码 段 和 0 个 至 多 个 数据 段 构成 ,代码 段 在 前 面 。 

代码 段 以 “. text? 开 头 , 含 有 指令 。 

数据 段 以 “. data” 开 涉 , 售 byte、half、word、dword、single、double、space 等 数据 子 市 。 

除 Space 外 ,各 类 数据 子 节 可 含 右 干 数据 列表 ,其 每 个 数据 和 此 属于 该 类 型 。 每 个 数据 
间 可 用 逗号 阳 开 。 

下 面 以 类 似 正则 表达 式 的 方式 给 出 其 语法 结构 。 其 中 “x* ”表示 0 到 多 个 匹配 ,“[ jj” 
表示 将 其 中 内 容 作为 整体 匹配 ,“| ”表示 “ 或 "关系 ,“?” 表 示 1 到 多 个 匹配 ,“RT” 表 示 换 
行 符 。 

mips assemblly: [ text sec | data sec ] * 

text_ sec: '.text'[ addr ]? RT[ text line [ comment ]? RT ] * 

text line: instr | label | align | (blank) 

data sec: [ data line [ comment ]? RT] #* 

data line: '.data'[ addr ]? RT[ sub sec | align ] * 

sub sec: byte sec | half sec | word sec | dword sec | single sec | double sec | ascii sec 

asciiz sec | space sec 

word sec: '.word'word list RT 

word list: word [', 'word ] * 

(byte,half ,dword,.single,double,ascii,asciiz 子 节 与 word 子 节 类 似 ) 

space sec: '. space' number RT 

align: '.align'[0|1|2|3] 


2. 详细 说 明 


(1) 指令 段 : 含有 指令 ,'. text' 后 硅 指 定 了 地 址 , 则 该 地 址 表示 该 段 起 始 地 址 。 

(2) 数据 段 : 含有 数据 ,'. data' 后 大 指定 了 地 址 , 则 该 地 址 表示 该 段 起 始 地 址 。 

(3) 标签 : 本 和 号 代表 一 个 地 址 , 即 其 所 在 处 。 

(4) 对 齐 (align): 指示 接 下 来 的 单元 如 何 对 齐 , 设 所 指定 的 数字 为 n, 则 在 2* 边界 处 
对 齐 。 

(5) 数据 列表 : 逗号 隔 开 的 每 个 数据 依次 写 人 地 址 空间 ,每 个 数据 在 写 人 前 都 要 
对 齐 。 

(6) 换行 (RT): 即 回 车 。 

(7) 注释 (comment): 以 “# ”开头 ,以 换行 (RT) 结 束 。 

(8) 标签 (label) : 一 个 标示 符 加 一 个 冒号 ; 标示 符 以 字母 或 下 划 线 开头 ,接着 硅 干 字 
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母 数字 或 下 划 线 。 
(9) 指令 (Cinstr): 即 指令 列表 的 汇编 语句 列 中 所 列 的 请 句 。 
在 汇编 语句 中 ,各 词法 要 素 实 际 写法 如 下 : 
整数 寄存 而: $r0 一 $r31 
浮 点 寄存 髓 : $f0~ $f31 
立即 数 : 其 书写 规则 与 普通 数字 相同 ,分 为 十 进 制 和 十 六 进 制 两 种 。 
字符 : 与 C/C++ 对 于 字符 的 定义 一 致 ,以 单 引 号 为 标记 。 
字符 串 : 与 C/C++ 对 于 字符 串 的 定义 一 致 ,以 双 引 号 为 标记 ,特殊 转 义 字 和 从 需要 多 加 


一 个 “\”。 
3. 伪 指 令 


a a 将 下 一 个 数据 的 起 始点 对 准 2 的 n 次 方 字 节 地 址 的 边界 。 例 
0 0 如 ,. align 2 将 下 一 个 数据 对 准 字 边 界 


.ascii .ascil str 在 内 存 中 存储 字符 串 str, 但 不 以 null 结尾 
, asciiz ,asciiz str 在 内 存 中 存储 字符 串 str, 并 以 null 结尾 
byte byte bl,b2,*… ,bn 在 内 存 的 连续 空间 内 存储 天 个 值 ( 字 节 ): bl,b2,*… ,bn 


oe data <addr> 随后 定义 的 数据 被 存放 到 数据 段 。 如 果 参 数 addr 存在 ,那么 这 
加 些 数据 将 被 存放 到 以 addr 作为 起 始 地 址 的 一 片 内 存单 元 中 


. double . double dl,d2,*… ,dn | 在 连续 的 内 存 区 中 存储 值 为 d1 ,d2,…dn 的 nn 个 双 精 度 浮 点 数 
声明 存储 在 sym 中 的 数据 是 size 个 字 节 大 小 ,并 且 是 一 个 全 局 


. extern . extern sym size 标记 ,该 宏 指 令 使 得 数据 可 以 存储 在 任 俯 $ gp 可 以 有 效 访 问 的 
数据 段 中 

. float . float {1,f2,* ,fn 在 连续 的 内 存 区 中 存储 值 为 全,f2,… ,fn 的 个 单 精 度 浮 点 数 

. globl 将 sym 声明 为 全 局 标号 ,并 且 可 以 被 其 他 文件 引用 


在 连续 的 内 存 区 中 存储 值 为 hl,h2,…,hn 的 n 个 半 字 (16 位 ) 
的 数 

随后 的 数据 被 存放 到 核心 数据 段 , 如 果 参 数 addr 存在 ,那么 这 
些 数据 将 被 存放 到 以 addr 作为 起 始 地 址 的 一 片 内 存单 元 中 


ktext ktext <addr> 随后 的 数据 被 存放 到 核心 代码 段 ,如 果 参 数 addr 存在 ,那么 这 
Le 些 代码 将 被 存放 到 以 addr 作为 起 始 地 址 的 一 片 内 存单 元 中 


.Set noat 第 一 条 宏 指 令 拒 绝 接 下 来 使 用 $at 的 指令 ,第 二 条 宏 指 令 恢 复 
.Set 
. SEt at 该 警告 


. space 在 当前 段 中 分 配 ”个 字 节 的 空间 


有 och me ae 随后 的 项 目 被 存放 到 代码 段 。 如 果 参 数 addr 存在 ,那么 这 些 项 
| 目 将 被 存放 到 以 addr 地 址 开始 的 内 存 中 


在 连续 的 内 存 区 中 存储 值 为 wl,w2,***, Wn 的 开 个 字 (32 位 ) 
的 数 


. half . half hl,*… ,hn 


. kdata kdata =addr > 


. Word . WOoOrd wl ,Ww2,** ,wn 
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4. 汇编 程序 举例 


. data 

.globl main 

. text 

maln 

ADDU $ r4, S$ r3, $ r2 
NOR $ r5, $ r6, $r7 
SLL $ r8, $ r9,3 
MTHI $ r10 

dfs 

DMTC1 $ r11, $ fl 
BGTZ $ r12, 1oop 

J main 

loop: 

LWU S$ rl13,2( $ rl14) 
SDC1 $ £f2,4( $ r15) 
TLT $$ rl1i6, $ r17 
SUB.S $ £f3, $ f4, $ £5 
BC1F 3, loop 

CVT. S.W $ f6, $ £7 
SYSCALL 


. data 

.align 4 

arr: .byte 1,2,3 
str: .asciiz "abcd" 
db: .double 1.1,1.2 
. extern label 10 
ft: .float 1.0 

. Space 9 


L1 
[2] 
[3] 
4] 
[5] 
[6] 
[7] 


[8] 
[9] 
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